Prädiktion und Klassifikation mit Random Forest

Slides:

Advertisements

Ähnliche Präsentationen

Algorithmentheorie 08 – Dynamische Programmierung (1)

Advertisements

Asymptotische Notation

Heute 1.F – Test zur Varianzhomogenität 2.Bartlett-Test zur Varianzhomogenität 3.Chi – Quadrat Tests für Häufigkeiten 4.Chi – Quadrat Tests zur Verteilungsanpassung.

TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking

Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2012.

Gliederung Motivation / Grundlagen Sortierverfahren

Forschungsstatistik II

Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-26.

Felder sortieren. Aufgabe: Die Zahlen eines Feldes sollen der Größe (zuerst die kleinste Zahl) nach sortiert werden.

Prof.Dr.S. Albers Prof. Dr. Th. Ottmann

WS 03/04 Algorithmentheorie 03 - Randomisierung Prof. Dr. S. Albers Prof. Dr. Th. Ottmann.

Dynamische Programmierung (2) Matrixkettenprodukt

1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (03 – Verschiedene Algorithmen für dasselbe Problem) Prof. Dr. Th. Ottmann.

1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (03 – Verschiedene Algorithmen für dasselbe Problem) Prof. Dr. Th. Ottmann.

WS Algorithmentheorie 08 – Dynamische Programmierung (2) Matrixkettenprodukt Prof. Dr. Th. Ottmann.

Informatik II, SS 2008 Algorithmen und Datenstrukturen Vorlesung 4 Prof. Dr. Thomas Ottmann Algorithmen & Datenstrukturen, Institut für Informatik Fakultät.

Algorithmentheorie 12 – Spannende Bäume minimalen Gewichts

Union-Find-Strukturen

1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (03 – Verschiedene Algorithmen für dasselbe Problem) Prof. Dr. Th. Ottmann.

Konfidenzintervalle für Parameter

Formeln umstellen Zum Umstellen einer Formel gelten die Rechenregeln von Gleichungen Im Folgenden ein Beispiel am Dreieck:

© 2002 Prof. Dr. G. Hellberg 1 XML-Seminar XML-Technologie: XML in Theorie und Praxis Prof. Dr. G. Hellberg XML-Technologie: XML in Theorie und Praxis.

Universität Dortmund, Lehrstuhl Informatik 1 EINI II Einführung in die Informatik für Naturwissenschaftler und Ingenieure.

Übung Datenbanksysteme WS 2003/ Übung Datenbanksysteme Hierarchische DBMS

Software-Engineering

Die Skriptsprache Perl (8) Wolfgang Friebel DESY Zeuthen.

Vortrag: Ingo Gensch, Mathias Reich am:

F FnFn z 9. Operational Targets Prof. Dr. Johann Graf Lambsdorff Universität Passau SS 2012.

Berufsinformationswoche am KFG

Berechnung des Osterdatums

Quadratische Gleichung

Classification of Credit Applicants Using Data Mining. Thema.

Machine Learning Decision Trees (2).

Probleme der Modellspezifikation

Christian Schulz, Marc Thielbeer, Sebastian Boldt

Java programmieren mit JavaKara

Zur Veranstaltung Business Intelligence

Einführung in die Programmierung

Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/

Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/

Einführung in die Programmierung Wintersemester 2009/10 Prof. Dr. Günter Rudolph Lehrstuhl für Algorithm Engineering Fakultät für Informatik TU Dortmund.

Parallel Matrix Multiplication

Korpuslinguistik für und mit Computerlinguistik

Erfindervon Fuzzy Logic

Graphische Darstellung von Zahlen (1/2)

Wahrscheinlichkeitsrechnung

Statistik I - Übung Sarah Brodhäcker.

Grundkonzepte des Programmierens (mit ActionScript)

Variablen. var meineZahl:Number = 7; meineZahl 7 Name TypWert = Zuweisung von Variablen.

Peer-to-Peer-Netzwerke

Statistik – Regression - Korrelation

Übung 4 - MdMT Methoden der Medizintechnik Übung zur Vorlesung Folge 4 – Signale verarbeiten I Audiodaten einlesen.

Lösungen zum Übungsblatt 3 zur Vorlesung Datenstrukturen Prof. R. Bayer, WS 2001/02 Übung 6.1: Konstruieren Sie den B-Baum aus der Klasse  h  der.

IntelliVideo1 / 25 IntelliVideo Der intelligente Videorekorder.

SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.

WS03/041 Dynamische Programmierung (3) Konstruktion optimaler Suchbäume Prof. Dr. S. Albers Prof. Dr. Th. Ottmann.

Berufsinformationswoche am KFG Anleitung für das Anmeldesystem.

Induktion von Entscheidungsbäumen Seminar Data Mining am Fachgebiet Datenbanken und Informationssysteme Sommersemester 2007 Betreuer: Hendrik Warneke.

Test 1 Test 2 Test 3. Test 4 Test 5 Test 6 Test 7 Test 8 Test 9.

Programmiersprachen II Vorbesprechung Klausur Prof. Dr. Reiner Güttler Fachbereich GIS HTW.

EIN NEUES ENSEMBLE- KLASSIFIKATIONSVERFAHREN Tim Schneider Rotation Forest.

Data Mining Introduction Prof. Dr. T. Nouri

1 Suchprofile erstellen und verwalten. 2 Suchprofile bei Registrierung Hier können Sie bis zu drei Suchprofile einrichten. Diese finden Sie später unter.

J. Nürnberger2007 / 081 Tabellenkalkulation (3) Arbeiten mit Formeln am Beispiel von OpenOffice.org Calc.

Auf welche Zahl zeigt der Pfeil?

Biraveenmaks Ponnu Benjamin Zumbrunn

Präsentation transkript:

Prädiktion und Klassifikation mit Random Forest Prof. Dr. T. Nouri Nouri@acm.org Technical University NW-Switzerland

Übersicht Probleme mit Decision Tree Der Random Forests RF Implementation & Tests RF Resultate Rückblick

Decision Tree

Probleme mit Decision Tree rule 1, conditions Gender = 2, FishLastWeek = 0; FishLastWeek = 1 Age = 3 Then Blood Pressure is High 71.4

a. Der Random Forests Allgemeines Die Erstellung eines Baumes „Random Trainingsets“ generieren Baum erstellen Wald testen Scoring

1 Allgemeines zum Random Forest Erweiterung des traditionellen Entscheidungsbaum-Modells Viele Bäume Weniger Splitvariablen Zufällige Datensets Kein Baum ist gleich wie der andere

2.1 „Random Trainingsets“ generieren Daten einlesen Anzahl Objekte (ntrain) und Anzahl Variablen (mdim) berechnen Zufällig ntrain Objekte aus allen Objekte auswählen (Wiederholungen sind erlaubt) Immer ntrain Objekte ergeben ein Training-Set Trnn Mit jedem Training-Set wird ein Baum gebaut

2.1 „Random Trainingsets“ generieren Obj. Nbr ntrain = Anzahl Objekte Hier: ntrain = 10 (Die Trainingsdaten sollten repräsentativ für alle möglichen Daten sein.) 2x Wähle zufällig ntrain Objekte aus den InputDaten (Wiederholungen sind erlaubt) 3x TrainingSet Trn1 TrainingSet Trn2

2.2 Baum erstellen Zufällig mtry Variablen aus den mdim Variablen aussuchen. mtry wird mit den Startparametern angegeben. Als gute Zahl für mtry wird empfohlen. Hier wird mtry = 2 verwendet. Var1 Var2 Var3 Var4 Var5 Für die mtry Variablen wird berechnet, welche von ihnen die Trni -Daten am besten aufteilt. (find best split) Dies kann mit dem Gini-Index, Entropie, usw. berechnet werden. In diesem Fall wurde folgende Entropieformel verwendet: p+= Anz. richtig klassifizierte p-= Anz. falsch klassifizierte n = Anzahl Objekte

2.2.1 Node 1 Im Node 1 wird der Best Split bei Var1 und Var4 gesucht. Obj. Nbr Im Node 1 wird der Best Split bei Var1 und Var4 gesucht. Var1 hat den kleineren „Entropie“-Wert Var1 ist der best Split.

Rule 1: Wenn Var 1 <= 2.5 dann Class = 1 , Gehe zu Node 2 2,4,6,9 7,8 Rule 1: Wenn Var 1 <= 2.5 dann Class = 1 , Gehe zu Node 2 Die Daten werden mit der Rule 1 aufgeteilt.

2.2.2 Node 2 Im Node 2 wird der Best Split bei Var1 und Var2 gesucht. Obj. Nbr Im Node 2 wird der Best Split bei Var1 und Var2 gesucht. Var2 hat den kleineren „Entropie“-Wert Var2 ist der best Split.

Rule 2: Wenn Var 2 <= 1.5 dann Class = 2, Gehe zu Node 4 2,4,6,9 7,8 9 2,4,6 Rule 2: Wenn Var 2 <= 1.5 dann Class = 2, Gehe zu Node 4 Die Daten werden mit der Rule 2 aufgeteilt.

2.2.3 Node 3 Im Node 3 befinden sich nur noch Objekte Nbr Im Node 3 befinden sich nur noch Objekte mit Class = 2, der Knoten ist daher rein und muss nicht mehr weiter gesplittet werden.

2.2.3 Node 3 2,4,6,9 7,8 9 2,4,6

2.2.4 Node 4 Im Node 5 befinden sich nur noch Objekte Nbr Im Node 5 befinden sich nur noch Objekte mit Class = 2, der Knoten ist daher rein und muss nicht mehr weiter gesplittet werden.

2.2.4 Node 4 2,4,6,9 7,8 9 2,4,6

2.2.5 Node 5 Im Node 4 befinden sich nur noch Objekte Nbr Im Node 4 befinden sich nur noch Objekte mit Class = 1, der Knoten ist daher rein und muss nicht mehr weiter gesplittet werden.

Der Fertig entwickelte Baum 2.2.5 Node 5 2,4,6,9 7,8 9 2,4,6 Der Fertig entwickelte Baum

2.3 Wald evaluieren Oob-TestSet erstellen Objekte von Baum Klassifizieren lassen Fehlerquote berechnen

2.3.1 Oob-TestSet erstellen Obj. Nbr Für den Test wird für jeden Baum Treei ein TestSet verwendet. Dies sind jeweils diejenigen Objekte, die nicht im TrainingsSet Trni des Baums enthalten waren, gebildet.

2.3.2 Objekte Klassifizieren Obj. Nbr Class Var1 Var2 Var3 Var4 Var5 1 2 63 Rule 1: Wenn Var 1 <= 2.5 dann Class = 1 Gehe zu Node 2 Rule 2: Wenn Var 2 <= 1.5 dann Class = 2 Gehe zu Node 4 Objekt1: Class = 2

2.3.3 Für alle Bäume …

2.3.3 … werden die Objekte Klassifiziert Jeder Baum klassifiziert sein Oob-TestSet  ObjektScore Die ObjektScore gibt für jedes Objekti an, mit welcher Wahrscheinlichkeit es falsch Klassifiziert wurde Aussagekraft des Waldes = Durchschnitt aller ObjektScores

2.3.4 Fehlerquote berechnen Objekt Ausgewählt Davon falsch Fehler-% 1 4 25% 2 3 0% 50% 5 66.67% 6 7 8 9 100% 10 Total: 40.83%

3. Scoring Wenn ein Random Forest generiert wurde, können ihm beliebige Testdaten eingegeben werden. Jedes Test-Objekt wird von jedem Baum klassifiziert. Objekti Tree1 Objekti Tree2 Objekti Tree3 Objekti Treejbt Class = 1 Class = 1 Class = 1 Class = 2 Der Test Fall wird somit derjenigen Klasse zugewiesen, die am Meisten Stimmen erhält:VOTING

b. Implementation & Tests von RF Implementierung des Modells in der SAS-Language Einbindung in den Enterprise Miner

c. Tests 4 Verschiedene Modelle SAS Random Forest Breiman Random Forest Decision Tree 1 Decision Tree 2 3 Verschiedene Datensets SmallBPress 10 Training / 10 Test 5 Var. Bank 50 Training / 500 Test 8 Var. SatImage 4435 Training /2000 Test 36 Var.

c. Tests Durchläufe mit 1, 5, 10 und 100 Bäumen für alle Forest Modelle Supervised und Unsupervised Scoring mit allen Modellen

d. Resultate / Supervised DatenSet SAS RF RF Hybrid Breiman RF Decision Tree 1 Decision Tree 2 SmallBPress 100% Bank SatImage 94% -

d. Resultate / Unsupervised DatenSet SAS RF RF Hybrid Breiman RF Decision Tree 1 Decision Tree 2 SmallBPress 81% 51% 80% 50% 60% Bank 93% 94% 91% SatImage 90% 84% -

d. Resultate Random Forest liefert die besseren Resultate als traditionelle Modelle Voraussetzung ist eine Mindestanzahl von Bäumen(mehr als 100) Somit ist das Random Forest - Modell eine bessere Alternative zum Decision Tree

Zusammenfassung

e. Rückblick Erste Kommerzielle Implementation Random Forest liefert bessere Ergebnisse Klassifikation/Vorhersage als Decision Trees Nur die besten aussagekräftigsten Bäume wählen ====> Besser Modell

Haben Sie noch Fragen?