Induktion von Entscheidungsbäumen Seminar Data Mining am Fachgebiet Datenbanken und Informationssysteme Sommersemester 2007 Betreuer: Hendrik Warneke.

Slides:



Advertisements
Ähnliche Präsentationen
8. Termin Teil B: Wiederholung Begriffe Baum
Advertisements

Der R-Baum Richard Göbel.
PG402 Wissensmanagement Zeitreihen in Datenbanken 1 PG-402 Wissensmanagement: Zeitreihen in Datenbanken Klaus Unterstein.
Motivation Bisher: Codes mit möglichst kurzer Codelänge.
Kapitel 3 Arithmetische Schaltkreise
Der k-d-Baum Richard Göbel.
Data Mining Anwendungen und Techniken
SST - Sequence Search Tree
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
7. Natürliche Binärbäume
R. Der - Vorlesung Algorithmen und Datenstrukturen (Magister)
Wasserfall-Ansätze zur Bildsegmentierung
Bäume • Kernidee: Speicherung von Daten in einer Baumstruktur
Genetische Algorithmen
Der R-Baum Richard Göbel.
Effizienz: Indexstrukturen
Baumstrukturen Richard Göbel.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (19 - Analyse natürlicher Bäume) Prof. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (17 – Bäume: Grundlagen und natürliche Suchbäume) Prof. Th. Ottmann.
Algorithmen und Datenstrukturen
Informatik II – Kapitel 13
Seminar parallele Programmierung SS 2003
Demoprogramm: Clustering Eine graphische Demonstration verschiedener Clusteringalgorithmen anhand des Clusterings von Punkten im zweidimensionalen Raum.
Oberseminar Datenbanken Carsten Severin Tobias Sorgatz
Hypothesen testen: Grundidee
R-tree, R*-tree und R+-tree
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Geoinformation II Vorlesung In welcher Masche liegt der Punkt p?
Algorithmen und Komplexität
Was sind Histogramme? (1)
Minimum Spanning Tree: MST
Classification of Credit Applicants Using Data Mining. Thema.
Analyse eines Handballspielzuges
Seminar: Informationstechnik in der Medizin Universität Dortmund Fakultät für Elektrotechnik und Informationstechnik Lehrstuhl für Kommunikationstechnik.
Machine Learning KNN und andere (Kap. 8).
Maschinelles Lernen und automatische Textklassifikation
Machine Learning Decision Trees (2).
Maschinelles Lernen und automatische Textklassifikation
Christian Schulz, Marc Thielbeer, Sebastian Boldt
Self Organizing Tree Algorithm
Willkommen bei Sycarus – dem Mathematikprogramm, das neue Wege geht.
Einführung in die Informatik für Naturwissenschaftler und Ingenieure (alias Einführung in die Programmierung) (Vorlesung) Prof. Dr. Günter Rudolph Fachbereich.
Effiziente Algorithmen
Abschlussvortrag zur Studienarbeit
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Effiziente Algorithmen
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt SS
Prädiktion und Klassifikation mit Random Forest
Klassifikation und Regression mittels neuronaler Netze
Seminar: Neue Ansätze der KI
Statistik – Regression - Korrelation
Analyse der Laufzeit von Algorithmen
Erhalt der Privatsphäre beim Data Mining Ulrich Graf Betreuer: Frank Eichinger Seminar im SS 2007 Aktuelle Herausforderungen an Datenschutz und Datensicherheit.
SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.
Algorithmen und Datenstrukturen Prof. Dr. Ralf Möller Universität zu Lübeck Institut für Informationssysteme Stefan Werner (Übungen) sowie viele Tutoren.
Binärbäume.
Programmiersprachen II Vorbesprechung Klausur Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
EIN NEUES ENSEMBLE- KLASSIFIKATIONSVERFAHREN Tim Schneider Rotation Forest.
Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
CL Tree MW 31.1 Business Intelligence Wintersemester 2015 / 2016 Stanislav Prokupetz.
DOAG DWH-SIG/Ralf BrüggemannFolie 1/ Data Mining-Verfahren: Theorie und Anwendungsgebiete Ralf Brüggemann PROMATIS AG.
Rechen- und Kommunikationszentrum (RZ) Selektionsstrategien auf Graphstrukturen Sven Porsche Seminarvorträge Aachen.
Häufige Teilgraphen:gSpan Seminartitel: Data Mining Seminarthema:1.5.1 Häufige Teilgraphen: gSpan Fernuniversität Hagen SS 2008 Seminarleiter: Ralf.
 Präsentation transkript:

Induktion von Entscheidungsbäumen Seminar Data Mining am Fachgebiet Datenbanken und Informationssysteme Sommersemester 2007 Betreuer: Hendrik Warneke 26.06.2007 Mirko Stratmann

Agenda Motivation für Klassifikation Entscheidungsbäume Induktion von Entscheidungsbäumen Splitting-Kriterien Abbruchkriterien Overfitting Pruning-Methoden Zusammenfassung Induktion von Entscheidungsbäumen | 26.06.2007 | Folie 2 Mirko Stratmann

Motivation für Klassifikation bisher: Assoziationsregeln Nun: Klassifikation aus Daten Prognosen für die Zukunft ableiten Beispiele: Finanzbranche, Medizin, Energie schnellere, sicherere Prognose Vorgehensweise Ableiten von explizitem Wissen aus Daten kompakte Repräsentation von Wissen Wir verwenden dazu Entscheidungsbäume Induktion von Entscheidungsbäumen | 26.06.2007 | Folie 3 Mirko Stratmann

Entscheidungsbäume Entscheidungsbäume sind Bäume Attribute Tests Innere Knoten: Attribute Kanten: Tests Blätter: Klassen Attribute kategorisch numerisch Tests führen zu Split Klassen sollen zugeordnet werden Induktion von Entscheidungsbäumen | 26.06.2007 | Folie 4 Mirko Stratmann

Beispiel: Datengrundlage Induktion von Entscheidungsbäumen | 26.06.2007 | Folie 5 Mirko Stratmann

Beispiel: Entscheidungsbaum nicht alle Attribute wurden zum Aufbau des Entscheidungsbaums genutzt Klassifikationsgenauigkeit ist 1 für Beispieldaten Induktion von Entscheidungsbäumen | 26.06.2007 | Folie 6 Mirko Stratmann

Beispiel: Klassifikationsregeln Aus Entscheidungsbäume lassen sich Klassifikationsregeln ableiten: Für jedes Blatt: Und-Verknüpfung aller Tests auf dem Pfad Induktion von Entscheidungsbäumen | 26.06.2007 | Folie 7 Mirko Stratmann

Induktion von Entscheidungsbäumen Konstruktion eines Entscheidungsbaums aus einer Menge von klassifizierten Datensätzen meist: Teilen dieser Menge in Trainingsdatenmenge und Testdatenmenge Ermitteln des Klassifikationsfehlers auf Testdatenmenge 2 Phasen: Growing & Pruning Growing: (Top-Down) Aufbau des Baums mit Hilfe von Splitting- Kriterien bis Abbruchkriterium erfüllt dazu rekursives Partitionieren des Traingsdatenraums Pruning: (Bottom-up) “Stutzen” des Baums für bessere Klassifikationsperformance Induktion von Entscheidungsbäumen | 26.06.2007 | Folie 8 Mirko Stratmann

Splitting-Kriterien Ein weiterer Entscheidungsbaum für unser Beispiel… Induktion von Entscheidungsbäumen | 26.06.2007 | Folie 9 Mirko Stratmann

Splitting-Kriterien (2) Ziele Baum möglichst klein und kompakt gute Klassifikationsgenauigkeit Auswahl des besten Splits erforderlich Eigentlich: Betrachte alle möglichen Splits: auch Teilmengensplits hier Vereinfachung: immer komplette Splits und nur für Tests der Form Attribut = Wert Splitting-Kriterien bewerten Splits InformationGain GiniGain u.v.m. Induktion von Entscheidungsbäumen | 26.06.2007 | Folie 10 Mirko Stratmann

InformationGain zunächst: Maß für den Informationsgehalt einer Darstellung Informationstheorie: Shannon’sche Entropie y: Zielattribut S: Trainingsdatenmenge σy=cjS: Menge der Datensätze aus S mit Klasse cj Induktion von Entscheidungsbäumen | 26.06.2007 | Folie 11 Mirko Stratmann

InformationGain Maß für die Veränderung der Entropie y: Zielattribut S: Trainingsdatenmenge ai: mögliches Attribut für den Split σai=ci,jS: Menge der Datensätze aus S mit Attribut ai hat Wert vi,j Induktion von Entscheidungsbäumen | 26.06.2007 | Folie 12 Mirko Stratmann

Entwicklung am Beispiel – Vor dem ersten Split Induktion von Entscheidungsbäumen | 26.06.2007 | Folie 13 Mirko Stratmann

Entwicklung am Beispiel (2) Split nach Aussicht bringt größten Informationsgewinn Induktion von Entscheidungsbäumen | 26.06.2007 | Folie 14 Mirko Stratmann

Entwicklung am Beispiel (3) – Nach dem ersten Split Induktion von Entscheidungsbäumen | 26.06.2007 | Folie 15 Mirko Stratmann

Gini Maß für die Unreinheit y: Zielattribut S: Trainingsdatenmenge σy=cjS: Menge der Datensätze aus S mit Klasse cj Induktion von Entscheidungsbäumen | 26.06.2007 | Folie 16 Mirko Stratmann

GiniGain Maß für die Abnahme der Unreinheit y: Zielattribut S: Trainingsdatenmenge ai: mögliches Attribut für den Split σai=ci,jS: Menge der Datensätze aus S mit Attribut ai hat Wert vi,j Induktion von Entscheidungsbäumen | 26.06.2007 | Folie 17 Mirko Stratmann

GiniGain vs. InformationGain InformationGain und Gini liefern hier ähnliche Ergebnisse! Induktion von Entscheidungsbäumen | 26.06.2007 | Folie 18 Mirko Stratmann

Overfitting Klassifikationsgenauigkeit Je länger die Growing-Phase, desto besser die Klassifikationsgenauigkeit → auf den Trainingsdaten Trainingsdaten fehlende Werte nicht repräsentative Auswahl falsch klassifizierte Datensätze Rauschen Überanpassung an Trainingsdaten zeigt Overfitting-Effekt Induktion von Entscheidungsbäumen | 26.06.2007 | Folie 19 Mirko Stratmann

Overfitting (2) fehlerhaft klassifizierter Datensatz verfeinerter Entscheidungsbaum durch fehlerhaften Datensatz Induktion von Entscheidungsbäumen | 26.06.2007 | Folie 20 Mirko Stratmann

Overfitting (3) ( aus: Ester, Sander: Knowledge Discovery in Databases) “fully-grown tree” kann so nicht sinnvoll sein! Aber wie sollte man das Abbruchkriterium wählen? Induktion von Entscheidungsbäumen | 26.06.2007 | Folie 21 Mirko Stratmann

Abbruchkriterien Growing des Entscheidungsbaums bis zu Abbruchkriterium Typische Beispiele: Alle Datensätze der Trainingsdatenmenge haben den gleichen Wert für das Zielattribut Die maximale Höhe des Entscheidungsbaums ist erreicht Die Zahl der Fälle (Datensätze) in den untersten Knoten ist geringer als die minimale Anzahl von Fällen für Elternknoten Falls der Knoten gesplittet würde, dann wäre die Zahl der Fälle eines oder mehrerer Kindknoten geringer als die minimale Zahl an Fällen pro Kindknoten Das beste Ergebnis eines Splitting Kriteriums ist unter einem gewissen Schwellwert Induktion von Entscheidungsbäumen | 26.06.2007 | Folie 22 Mirko Stratmann

→ Pruning Festlegen von geeigneten Abbruchkriterien schwierig: Pruning kann die Klassifikationsgenauigkeit erhöhen Reduced Error Pruning Trainingsmenge und Testmenge Prüfen, ob Prunen eines Knotens die Klassifikationsperformance auf Testdatenmenge verbessert Zurückschneiden so lange der Klassifikationsfehler abnimmt → Induktion von Entscheidungsbäumen | 26.06.2007 | Folie 23 Mirko Stratmann

Minimal Cost-Complexity Pruning Ansatz: Berücksichtigung der Kostenkomplexität α: Kostenkomplexitätsparameter ε: Funktion, die Fehler auf den Trainingsdaten berechnet |leaves(T)| : Anzahl der Blätter von Baum T T(α) ist der Teilbaum, der die Kostenkomplexität unter Bezug auf α minimiert Induktion von Entscheidungsbäumen | 26.06.2007 | Folie 24 Mirko Stratmann

Minimal Cost-Complexity Pruning (2) anschaulich: Anstieg der Fehlerrate pro gepruntem Blatt Vorgehen Konstruiere Folge von Teilbäumen T1, … , Tk dabei ist T1 der durch Growing ermittelte Baum und Tk der Teilbaum ist, der nur aus der Wurzel besteht Prüfe für jeden Teilknoten von Ti den Kostenkomplexitätsparameter α und prune den Knoten, bei dem α minimimal ist und erhalte so Ti+1 Bestimme für die Folge T1, … , Tk die Klassifikationsgenauigkeit und wähle den Teilbaum mit dem geringsten Fehler auf den Testdaten Induktion von Entscheidungsbäumen | 26.06.2007 | Folie 25 Mirko Stratmann

Welche Pruning-Methode ist die beste? Es gibt viele weitere Pruning-Methoden Performancetests der Pruningmethoden zeigen Manche Methoden wie Minimal Cost-Complexity Pruning neigen zu Over-Pruning Manche Methoden neigen zu Under-Pruning Zurückschneiden so lange der Klassifikationsfehler abnimmt “There ain't no such thing as a free lunch” Es gibt keine Pruning-Methode die in jedem Fall den besten Entscheidungsbaum liefert Induktion von Entscheidungsbäumen | 26.06.2007 | Folie 26 Mirko Stratmann

Kleiner historischer Systemvergleich ID3 (Iterative Dichotonomiser 3, Quinlan 1986) nutzt InformationGain als Splitting-Kriterium kein Pruning weiterentwickelt: C4.5 (1993) CART (Classification and Regression Trees, Breiman 1984) Besonderheit: erzeugt (binäre) Regressionsbäume nutzt Minimal Cost-Complexity Pruning Nicht für große Datenmengen geeignet, dafür eigene Algorithmen wie SLIQ und SPRINT Induktion von Entscheidungsbäumen | 26.06.2007 | Folie 27 Mirko Stratmann

Bewertung von Entscheidungsbaumklassifikatoren Entscheidungsbäume sind selbsterklärend und von Experten überprüfbar können mit kategorischen und numerischen Attributen umgehen sind fehlertolerant (falsche und fehlende Datensätze, Rauschen) viele Algorithmen treffen nur diskrete Vorhersagen Attribute sollten möglichst relevant sein Induktion von Entscheidungsbäumen | 26.06.2007 | Folie 28 Mirko Stratmann

Zusammenfassung Motivation für Klassifikation Entscheidungsbäume Induktion von Entscheidungsbäumen Splitting-Kriterien Abbruchkriterien Overfitting Pruning-Methoden Zusammenfassung Induktion von Entscheidungsbäumen | 26.06.2007 | Folie 29 Mirko Stratmann

Danke für Ihre Aufmerksamkeit! Fragen? ? Fragen? Fragen? Fragen? Fragen? Induktion von Entscheidungsbäumen | 26.06.2007 | Folie 30 Mirko Stratmann

Literatur und Quellen L. Rokach, O. Maimon: Kapitel 9 Decision Trees in: The Data Mining and Knowledge Discovery Handbook, Springer 2005, 165-192 J.R. Quinlan: Induction of Decision Trees, Machine Learning Vol. 1, Num. 1, S. 81-106, Springer 1986, 81-106 M. Ester, J. Sander: Knowledge Discovery in Databases, Springer 2000 M. Lusti: Data Warehousing und Data Mining, Springer 1999 I.H. Witten, E. Frank: Data Mining, Hanser 2001 J. Han, M. Kamber: Data Mining - Concepts and Techniques, Morgan Kaufmann 2006 L. Breiman, J.H. Friedman, R.A. Olshen, C.J. Stone: Classification of Regression Trees, Wadsworth 1984 Induktion von Entscheidungsbäumen | 26.06.2007 | Folie 31 Mirko Stratmann

Anhang: Minimal Cost-Complexity Pruning Wann haben der Ausgangsbaum und der geprunte Baum die gleiche Kostenkomplexität? für einen bestimmten Wert von α Anschaulich: der Anstieg der Fehlerrate pro gepruntem Blatt, also ein Maß dafür, welchen Anstieg des Klassifikationsfehlers auf den Trainingsdaten wir für die Verringerung der Komplexität des Baums in Kauf nehmen müssen. Induktion von Entscheidungsbäumen | 26.06.2007 | Folie 32 Mirko Stratmann

Anhang: verschiedene Splits (1) Induktion von Entscheidungsbäumen | 26.06.2007 | Folie 33 Mirko Stratmann

Anhang: verschiedene Splits (2) InformationGain und Gini liefern ähnliche Ergebnisse! Induktion von Entscheidungsbäumen | 26.06.2007 | Folie 34 Mirko Stratmann