Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Prädiktion und Klassifikation mit Random Forest 1/35 Prädiktion und Klassifikation mit Random Forest Prof. Dr. T. Nouri Technical University.

Ähnliche Präsentationen


Präsentation zum Thema: "Prädiktion und Klassifikation mit Random Forest 1/35 Prädiktion und Klassifikation mit Random Forest Prof. Dr. T. Nouri Technical University."—  Präsentation transkript:

1 Prädiktion und Klassifikation mit Random Forest 1/35 Prädiktion und Klassifikation mit Random Forest Prof. Dr. T. Nouri Technical University NW-Switzerland

2 Prädiktion und Klassifikation mit Random Forest 2/35 Übersicht a.Probleme mit Decision Tree b.Der Random Forests RF c.Implementation & Tests RF d.Resultate e.Rückblick

3 Prädiktion und Klassifikation mit Random Forest 3/35 Decision Tree

4 Prädiktion und Klassifikation mit Random Forest 4/35 Probleme mit Decision Tree rule 1, conditions Gender = 2, FishLastWeek = 0; FishLastWeek = 1 Age = 3 Then Blood Pressure is High 71.4

5 Prädiktion und Klassifikation mit Random Forest 5/35 a. Der Random Forests 1.Allgemeines 2.Die Erstellung eines Baumes 1.Random Trainingsets generieren 2.Baum erstellen 3.Wald testen 3.Scoring

6 Prädiktion und Klassifikation mit Random Forest 6/35 1 Allgemeines zum Random Forest -Erweiterung des traditionellen Entscheidungsbaum-Modells -Viele Bäume -Weniger Splitvariablen -Zufällige Datensets -Kein Baum ist gleich wie der andere

7 Prädiktion und Klassifikation mit Random Forest 7/ Random Trainingsets generieren 1.Daten einlesen 2.Anzahl Objekte (ntrain) und Anzahl Variablen (mdim) berechnen 3.Zufällig ntrain Objekte aus allen Objekte auswählen (Wiederholungen sind erlaubt) 4.Immer ntrain Objekte ergeben ein Training-Set Trn n 5.Mit jedem Training-Set wird ein Baum gebaut

8 Prädiktion und Klassifikation mit Random Forest 8/ Random Trainingsets generieren ntrain = Anzahl Objekte Hier: ntrain = 10 (Die Trainingsdaten sollten repräsentativ für alle möglichen Daten sein.) Wähle zufällig ntrain Objekte aus den InputDaten (Wiederholungen sind erlaubt) TrainingSet Trn 1 TrainingSet Trn 2 3x 2x Obj. Nbr

9 Prädiktion und Klassifikation mit Random Forest 9/ Baum erstellen 1.Zufällig mtry Variablen aus den mdim Variablen aussuchen. mtry wird mit den Startparametern angegeben. Als gute Zahl für mtry wird empfohlen. Hier wird mtry = 2 verwendet. Var 1 Var 2 Var 3 Var 4 Var 5 2.Für die mtry Variablen wird berechnet, welche von ihnen die Trn i -Daten am besten aufteilt. (find best split) Dies kann mit dem Gini-Index, Entropie, usw. berechnet werden. In diesem Fall wurde folgende Entropieformel verwendet: p + = Anz. richtig klassifizierte p - = Anz. falsch klassifizierte n = Anzahl Objekte

10 Prädiktion und Klassifikation mit Random Forest 10/ Node 1 Im Node 1 wird der Best Split bei Var 1 und Var 4 gesucht. Var 1 hat den kleineren Entropie-Wert Var 1 ist der best Split. Obj. Nbr

11 Prädiktion und Klassifikation mit Random Forest 11/ Node 1 Rule 1: Wenn Var 1 <= 2.5 dann Class = 1, Gehe zu Node 2 Die Daten werden mit der Rule 1 aufgeteilt. 2,4,6,97,8

12 Prädiktion und Klassifikation mit Random Forest 12/ Node 2 Im Node 2 wird der Best Split bei Var 1 und Var 2 gesucht. Var 2 hat den kleineren Entropie-Wert Var 2 ist der best Split. Obj. Nbr

13 Prädiktion und Klassifikation mit Random Forest 13/ Node 2 Rule 2: Wenn Var 2 <= 1.5 dann Class = 2, Gehe zu Node 4 Die Daten werden mit der Rule 2 aufgeteilt. 2,4,6,97,892,4,6

14 Prädiktion und Klassifikation mit Random Forest 14/ Node 3 Im Node 3 befinden sich nur noch Objekte mit Class = 2, der Knoten ist daher rein und muss nicht mehr weiter gesplittet werden. Obj. Nbr

15 Prädiktion und Klassifikation mit Random Forest 15/ Node 3 2,4,6,97,892,4,6

16 Prädiktion und Klassifikation mit Random Forest 16/ Node 4 Im Node 5 befinden sich nur noch Objekte mit Class = 2, der Knoten ist daher rein und muss nicht mehr weiter gesplittet werden. Obj. Nbr

17 Prädiktion und Klassifikation mit Random Forest 17/ Node 4 2,4,6,97,892,4,6

18 Prädiktion und Klassifikation mit Random Forest 18/ Node 5 Im Node 4 befinden sich nur noch Objekte mit Class = 1, der Knoten ist daher rein und muss nicht mehr weiter gesplittet werden. Obj. Nbr

19 Prädiktion und Klassifikation mit Random Forest 19/ Node 5 Der Fertig entwickelte Baum 92,4,62,4,6,97,8

20 Prädiktion und Klassifikation mit Random Forest 20/ Wald evaluieren -Oob-TestSet erstellen -Objekte von Baum Klassifizieren lassen -Fehlerquote berechnen

21 Prädiktion und Klassifikation mit Random Forest 21/ Oob-TestSet erstellen Für den Test wird für jeden Baum Tree i ein TestSet verwendet. Dies sind jeweils diejenigen Objekte, die nicht im TrainingsSet Trn i des Baums enthalten waren, gebildet. Obj. Nbr

22 Prädiktion und Klassifikation mit Random Forest 22/ Objekte Klassifizieren Obj. Nbr ClassVar 1 Var 2 Var 3 Var 4 Var Rule 2: Wenn Var 2 <= 1.5 dann Class = 2 Gehe zu Node 4 Rule 1: Wenn Var 1 <= 2.5 dann Class = 1 Gehe zu Node 2 Objekt1: Class = 2

23 Prädiktion und Klassifikation mit Random Forest 23/ Für alle Bäume …

24 Prädiktion und Klassifikation mit Random Forest 24/ … werden die Objekte Klassifiziert -Jeder Baum klassifiziert sein Oob-TestSet ObjektScore -Die ObjektScore gibt für jedes Objekt i an, mit welcher Wahrscheinlichkeit es falsch Klassifiziert wurde -Aussagekraft des Waldes = Durchschnitt aller ObjektScores

25 Prädiktion und Klassifikation mit Random Forest 25/ Fehlerquote berechnen ObjektAusgewähltDavon falschFehler-% 14125% 2300% 32150% % 6200% 76350% % % 10300% Total:40.83%

26 Prädiktion und Klassifikation mit Random Forest 26/35 3. Scoring Wenn ein Random Forest generiert wurde, können ihm beliebige Testdaten eingegeben werden. Jedes Test-Objekt wird von jedem Baum klassifiziert. Class = 1 Class = 2Class = 1 Objekt i Tree 1 Objekt i Tree 2 Objekt i Tree 3 Objekt i Tree jbt Der Test Fall wird somit derjenigen Klasse zugewiesen, die am Meisten Stimmen erhält:VOTING

27 Prädiktion und Klassifikation mit Random Forest 27/35 b. Implementation & Tests von RF -Implementierung des Modells in der SAS- Language -Einbindung in den Enterprise Miner

28 Prädiktion und Klassifikation mit Random Forest 28/35 c. Tests -4 Verschiedene Modelle -SAS Random Forest -Breiman Random Forest -Decision Tree 1 -Decision Tree 2 -3 Verschiedene Datensets -SmallBPress10 Training / 10 Test 5 Var. -Bank 50 Training / 500 Test 8 Var. -SatImage4435 Training /2000 Test 36 Var.

29 Prädiktion und Klassifikation mit Random Forest 29/35 c. Tests -Durchläufe mit 1, 5, 10 und 100 Bäumen für alle Forest Modelle -Supervised und Unsupervised Scoring mit allen Modellen

30 Prädiktion und Klassifikation mit Random Forest 30/35 d. Resultate / Supervised DatenSetSAS RFRF Hybrid Breiman RF Decision Tree 1 Decision Tree 2 SmallBPress100% Bank100% SatImage100% 94%-

31 Prädiktion und Klassifikation mit Random Forest 31/35 d. Resultate / Unsupervised DatenSet SAS RF RF Hybrid Breiman RF Decision Tree 1 Decision Tree 2 SmallBPress81%51%80%50%60% Bank93% 94%81%91% SatImage91%90%91%84%-

32 Prädiktion und Klassifikation mit Random Forest 32/35 d. Resultate -Random Forest liefert die besseren Resultate als traditionelle Modelle -Voraussetzung ist eine Mindestanzahl von Bäumen(mehr als 100) -Somit ist das Random Forest - Modell eine bessere Alternative zum Decision Tree

33 Prädiktion und Klassifikation mit Random Forest 33/35 Zusammenfassung

34 Prädiktion und Klassifikation mit Random Forest 34/35 e. Rückblick -Erste Kommerzielle Implementation -Random Forest liefert bessere Ergebnisse Klassifikation/Vorhersage als Decision Trees -Nur die besten aussagekräftigsten Bäume wählen ====> Besser Modell

35 Prädiktion und Klassifikation mit Random Forest 35/35


Herunterladen ppt "Prädiktion und Klassifikation mit Random Forest 1/35 Prädiktion und Klassifikation mit Random Forest Prof. Dr. T. Nouri Technical University."

Ähnliche Präsentationen


Google-Anzeigen