Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.

Ähnliche Präsentationen


Präsentation zum Thema: "SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden."—  Präsentation transkript:

1 SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden

2 SS 2009Maschinelles Lernen und Neural Computation 134 Komitees Mehrere Netze haben bessere Performanz als einzelne Einfachstes Beispiel: Komitee von Netzen aus der n-fachen Kreuzvalidierung (verringert Varianz) Die „Computational Learning Theory“ bietet uns einen weiteren Blick auf das Phänomen (PAC Lernen)

3 SS 2009Maschinelles Lernen und Neural Computation 135 PAC Lernen Gegeben: –eine Menge X von Instanzen (Beispiele) mit geg. Wahrscheinlichkeitsverteilung D –ein Zielkonzept c aus C (Menge d. Konzepte) (Klasseneinteilungen) c(x)=0 bzw. c(x)=1 –eine Menge H von Hypothesen (Einteilungen, die Lerner treffen kann) Gesucht: eine Hypothese h, sodass h(X)=c(X) PAC (probably approximate correct)-Lernen: –Verlange vom Lerner, dass mit der Wahrscheinlichkeit (1-δ) der Fehler e kleiner als ε ist Schwerpunkt auf Klassifikation, aber Ideen auch auf Regression anwendbar

4 SS 2009Maschinelles Lernen und Neural Computation 136 Voraussetzungen Allgemein: Trainingspaare: (x i,y i ), y i =+1, -1 Damit Komitee (Ensemble) etwas bringt: –Jede einzelne Hypothese sollte zumindest besser als Raten sein (e<0.5 [50%]) –Hypothesen sollten voneinander unabhängig sein –Hypothesen sollten eine große Varianz haben (vgl. Kap. 1) –Fehler der einzelnen Hypothesen sollte jeweils ein anderer sein Gewichtung Hypothese eines einzelnen Lerners (Klassifikators)

5 SS 2009Maschinelles Lernen und Neural Computation 137 Veranschaulichung Annahme: 21 (unabhängige) Hypothesen Jede hat einen Fehler von e=0.3 Wahrscheinlichkeit, dass genau k Hypothesen falsch sind: Wahrscheinlichkeit, dass mehr als 11 falsch sind: p=0.026 (= Fehler des Ensembles) Wenn e=0.5: Maximum genau in der Mitte, symmetrisch  kein Gewinn aus Dietterich (2000)

6 SS 2009Maschinelles Lernen und Neural Computation 138 3 Gründe für Verbesserungen Dietterich (2000): 1.statistisch = Varianz aufgrund der Daten 2.komputational (lokale Minima) = Varianz aufgrund des Trainings 3.repräsentational: Hypothesen alleine können Lösung nicht darstellen = Bias Hypothesenraum 1. 2. 3.

7 SS 2009Maschinelles Lernen und Neural Computation 139 Beispiel Repräsentationale Varianz (2 Hidden Units): Einfacher Durchschnitt bringt aber nicht das optimale Modell 1. Hypothese ist hier besser 2. Hypothese ist hier besser

8 SS 2009Maschinelles Lernen und Neural Computation 140 Bagging Bagging: Komitee mit „Bootstrap“ Samples,  t =1/T Bootstrap: zufällige Auswahl des Trainingsets mit Zurücklegen z.B: 8 Trainingsbeispiele 1-8 Mögliche Samples:2,7,8,3,7,6,3,1 7,8,5,6,4,2,7,1 3,6,2,7,5,6,2,2 … Nicht besser als Kreuzvalidierung (löst repräsentationales Problem nicht)

9 SS 2009Maschinelles Lernen und Neural Computation 141 Boosting Boosting: sequentielles Komitee Beispiele werden nach Fehlern in vorangegangenen Trainingssets gewichtet Auswahl erfolgt nach Gewicht  Beispiele, die oft falsch klassifiziert werden, werden für das Training neuer Hypothese öfter (wahrscheinlicher) genommen z.B: 8 Trainingsbeispiele 1-8, 1 ist „Ausreisser“ Mögliche Samples:2,7,8,3,7,6,3,1 1,4,5,4,1,5,6,4 7,1,5,8,1,8,1,4 1,1,6,1,1,3,1,5 …

10 SS 2009Maschinelles Lernen und Neural Computation 142 AdaBoost Jeder (von N) Trainingspunkten bekommt Gewicht d n (entspricht Wahrscheinlichkeit, genommen zu werden; zunächst 1/N) Fehler des Netzes Gewicht der Hypothese Gewichtsänderung: Normalisierung Hypothesengewichte: Kronecker Symbol

11 SS 2009Maschinelles Lernen und Neural Computation 143 Beispiel Aus Rätsch et al., Machine Learning 42(3), 2001 Großes Gewicht, da zuerst falsch klassifiziert Bagging

12 SS 2009Maschinelles Lernen und Neural Computation 144 Schwache und starke Lerner Starker Lerner: Für alle D, δ und ε gilt: Lerner erreicht Fehler e<ε mit Wahrscheinlichkeit 1-δ Schwacher Lerner: Erreicht das nur für δ ≥0.5-γ (γ … „edge“ des Lerners) entspricht einem Lerner, der wenig besser als Raten ist Boosting konvertiert das Ensemble von schwachen Lernern zu einem starken Lerner!

13 SS 2009Maschinelles Lernen und Neural Computation 145 Effekt des Boosting Boosting erzeugt Variation des schwachen Lerners (erst dann sind Fehler „unkorreliert“) Gewichtung wirkt wie und-Verknüpfung Aus schwachem wird starker Lerner Löst repräsentationales Problem bagging boosting http://www.cse.ucsd.edu/~yfreund/adaboost/

14 SS 2009Maschinelles Lernen und Neural Computation 146 MLPs als Boosting von Perceptrons Typischer Fall eines schwachen Lerners: Perceptron MLP ist gewichtete Summe von Perceptrons  Boosting kann als Trainingsalgorithmus für MLPs betrachtet werden Sequentielles Hinzufügen von Hidden Units Trainiert werden nur die Perceptrons

15 SS 2009Maschinelles Lernen und Neural Computation 147 Mixtures of Experts Jacobs et al., Neural Computation 1991 Idee: –mehrere Netze stehen im Wettstreit um den richtigen Output –Ein „gating network“ gewichtet die Outputs und entscheidet, welcher „expert“ das meiste zu sagen hat Expert Netz 1 Expert Netz 2 Expert Netz 3 … x Gating Netz f(x) pipi Gewicht = Wahrscheinlichkeit

16 SS 2009Maschinelles Lernen und Neural Computation 148 Probabilistische Formulierung von Ensembles Annahme: Ich kenne (habe) alle möglichen Hypothesen (den ganzen version space); dann: Hier lässt sich wieder die Bayes-Formel einsetzen  Bayes‘sche Inferenz Trainingsset Gewichtung= Wahrscheinlichkeit der Hypothese Likelihood des Modells A priori Wahrscheinlichkeit des Modells

17 SS 2009Maschinelles Lernen und Neural Computation 149 Zusammenfassung Ensemblemethoden bieten eine Verbesserung über einzelne Modelle (Hypothesen) Starker Zusammenhang mit statistischer Sicht (Bias/Varianz), aber aus Blickwinkel der Computational Learning Theory Geeignete Gewichtung von Beispielen und Hypothesen macht schwache zu starken Lernern  Ensemble kann auch Bias verringern Neue Sichtweise auf das MLP


Herunterladen ppt "SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden."

Ähnliche Präsentationen


Google-Anzeigen