SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.

Slides:

Advertisements

Ähnliche Präsentationen

Perceptrons and the perceptron learning rule

Advertisements

Definition [1]: Sei S eine endliche Menge und sei p eine Abbildung von S in die positiven reellen Zahlen Für einen Teilmenge ES von S sei p definiert.

Statistische Aspekte der PSG

TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking

Theorie psychometrischer Tests, III

Zeitliches probabilistisches Schließen

Forschungsstatistik II

Forschungsstatistik II Prof. Dr. G. Meinhardt SS 2006 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz KLW-26.

K. Desch - Statistik und Datenanalyse SS05

Situationen Verteilte Anwendungen Wintersemester 06/07 © Wolfgang Schönfeld.

Statistische Methoden II

Die Vorlesung Statistische Methoden II findet am (nächste Woche) nicht nicht statt. Diese Vorlesung wird zu einem späteren Termin, der noch bekannt.

M-L-Schätzer Erwartungswert

TESTS. Worum es geht Man möchte testen, ob eine bestimmte Annahme (Hypothese) über Parameter der Realität entspricht oder nicht. Beobachtung (Stichprobe)

Statistische Methoden I SS 2005 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.

Klausurtermin (laut Prüfungsamt) Probeklausur Freitag, 13. Juni 2003 statt Vorlesung.

Statistische Methoden II SS 2003 Vorlesung:Prof. Dr. Michael Schürmann Zeit:Freitag (Pause: ) Ort:Hörsaal Loefflerstraße Übungen.

III. Induktive Statistik

Die Vorlesung am 14. Mai (Tag nach Himmelfahrt) wird verlegt. Der Nachholtermin wird noch bekannt gegeben.

Maximum-Likelihood-Schätzer ( diskreter Fall) Likelihood-Funktion mit oder M-L-Schätzer.

Classification of Credit Applicants Using Data Mining. Thema.

Tutorium Aufgabe 1 Informationen in Designmatrix in: - Darin sind die Prädiktoren enthalten - Aber sagt uns noch mehr! Untersuchungsdesign darin.

Neuronale Netzwerke am Beispiel eines MLP

Bayes‘sche Verfahren (Mitchell Kap. 6), Teil 1

Machine Learning KNN und andere (Kap. 8).

Maschinelles Lernen und automatische Textklassifikation

Maschinelles Lernen und automatische Textklassifikation

Maschinelles Lernen Bayessche Verfahren (Mitchell Kap. 6), Teil 1.

Multikollinearität Wann spricht man von Multikollinearität?

Chi Quadrat Test Tamara Katschnig.

Computational Thinking Online Algorithmen [Was ist es wert, die Zukunft zu kennen?] Kurt Mehlhorn Konstantinos Panagiotou.

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Information und Kommunikation Hartmut Klauck Universität Frankfurt SS

Information und Kommunikation Hartmut Klauck Universität Frankfurt SS

Statistische Lernmethoden

Korpuslinguistik für und mit Computerlinguistik

STATISIK LV Nr.: 1375 SS März 2005.

Modul Statistische Datenanalyse

Klassifikation und Regression mittels neuronaler Netze

Management, Führung & Kommunikation

Lernmodelle und Experimentelle Untersuchungen

Testtheorie (Vorlesung 7: ) Rekapitulation: Modellierungsansatz

Stochastik ganz kurz Beispiel diskret Würfelwurf Beispiel stetig

Vom Neuron bis zur Boltzmann Maschine Miguel Domingo & Marco Block Seminar : Maschinelles Lernen und Markov KettenSommersemester 2002.

setzt Linearität des Zusammenhangs voraus

SS 2009Maschinelles Lernen und Neural Computation 107 Kapitel 6: Unüberwachtes Lernen.

K. Desch - Statistik und Datenanalyse SS05

K. Desch - Statistik und Datenanalyse SS05 Statistik und Datenanalyse 1.Wahrscheinlichkeit 2.Wahrscheinlichkeitsverteilungen 3.Monte-Carlo-Methoden 4.Statistische.

K. Desch - Statistik und Datenanalyse SS05

K. Desch - Statistik und Datenanalyse SS05

K. Desch - Statistik und Datenanalyse SS05

Maschinelles Lernen und Neural Computation

Übung zur Vorlesung Theorien Psychometrischer Tests I

Geoinformationssysteme

EIN NEUES ENSEMBLE- KLASSIFIKATIONSVERFAHREN Tim Schneider Rotation Forest.

Die klassischen Methoden der historisch-vergleichenden Forschung Universität Zürich Soziologisches Institut Seminar: Methoden des internationalen Vergleichs.

PCA Principal Component Analysis. Gliederung PCA – Warum eigentlich? PCA – Was ist zu tun? Was passiert eigentlich? Anwendungen Zusammenfassung.

Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.

TU Darmstadt FB 20 Informatik Bayes Decision Theory von Martin Tschirsich, Shuo Yang & Zijad Maxuti Hausübung 5: Erläuterung Anwendung.

Independent Component Analysis: Analyse natürlicher Bilder Friedrich Rau.

Emanuel Mistretta Lukas Schönbächler

Kapitel 2: Klassifikation

Kapitel 5: Der praktische Umgang mit komplexen Lernern

Präsentation transkript:

SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden

SS 2009Maschinelles Lernen und Neural Computation 134 Komitees Mehrere Netze haben bessere Performanz als einzelne Einfachstes Beispiel: Komitee von Netzen aus der n-fachen Kreuzvalidierung (verringert Varianz) Die „Computational Learning Theory“ bietet uns einen weiteren Blick auf das Phänomen (PAC Lernen)

SS 2009Maschinelles Lernen und Neural Computation 135 PAC Lernen Gegeben: –eine Menge X von Instanzen (Beispiele) mit geg. Wahrscheinlichkeitsverteilung D –ein Zielkonzept c aus C (Menge d. Konzepte) (Klasseneinteilungen) c(x)=0 bzw. c(x)=1 –eine Menge H von Hypothesen (Einteilungen, die Lerner treffen kann) Gesucht: eine Hypothese h, sodass h(X)=c(X) PAC (probably approximate correct)-Lernen: –Verlange vom Lerner, dass mit der Wahrscheinlichkeit (1-δ) der Fehler e kleiner als ε ist Schwerpunkt auf Klassifikation, aber Ideen auch auf Regression anwendbar

SS 2009Maschinelles Lernen und Neural Computation 136 Voraussetzungen Allgemein: Trainingspaare: (x i,y i ), y i =+1, -1 Damit Komitee (Ensemble) etwas bringt: –Jede einzelne Hypothese sollte zumindest besser als Raten sein (e<0.5 [50%]) –Hypothesen sollten voneinander unabhängig sein –Hypothesen sollten eine große Varianz haben (vgl. Kap. 1) –Fehler der einzelnen Hypothesen sollte jeweils ein anderer sein Gewichtung Hypothese eines einzelnen Lerners (Klassifikators)

SS 2009Maschinelles Lernen und Neural Computation 137 Veranschaulichung Annahme: 21 (unabhängige) Hypothesen Jede hat einen Fehler von e=0.3 Wahrscheinlichkeit, dass genau k Hypothesen falsch sind: Wahrscheinlichkeit, dass mehr als 11 falsch sind: p=0.026 (= Fehler des Ensembles) Wenn e=0.5: Maximum genau in der Mitte, symmetrisch  kein Gewinn aus Dietterich (2000)

SS 2009Maschinelles Lernen und Neural Computation Gründe für Verbesserungen Dietterich (2000): 1.statistisch = Varianz aufgrund der Daten 2.komputational (lokale Minima) = Varianz aufgrund des Trainings 3.repräsentational: Hypothesen alleine können Lösung nicht darstellen = Bias Hypothesenraum

SS 2009Maschinelles Lernen und Neural Computation 139 Beispiel Repräsentationale Varianz (2 Hidden Units): Einfacher Durchschnitt bringt aber nicht das optimale Modell 1. Hypothese ist hier besser 2. Hypothese ist hier besser

SS 2009Maschinelles Lernen und Neural Computation 140 Bagging Bagging: Komitee mit „Bootstrap“ Samples,  t =1/T Bootstrap: zufällige Auswahl des Trainingsets mit Zurücklegen z.B: 8 Trainingsbeispiele 1-8 Mögliche Samples:2,7,8,3,7,6,3,1 7,8,5,6,4,2,7,1 3,6,2,7,5,6,2,2 … Nicht besser als Kreuzvalidierung (löst repräsentationales Problem nicht)

SS 2009Maschinelles Lernen und Neural Computation 141 Boosting Boosting: sequentielles Komitee Beispiele werden nach Fehlern in vorangegangenen Trainingssets gewichtet Auswahl erfolgt nach Gewicht  Beispiele, die oft falsch klassifiziert werden, werden für das Training neuer Hypothese öfter (wahrscheinlicher) genommen z.B: 8 Trainingsbeispiele 1-8, 1 ist „Ausreisser“ Mögliche Samples:2,7,8,3,7,6,3,1 1,4,5,4,1,5,6,4 7,1,5,8,1,8,1,4 1,1,6,1,1,3,1,5 …

SS 2009Maschinelles Lernen und Neural Computation 142 AdaBoost Jeder (von N) Trainingspunkten bekommt Gewicht d n (entspricht Wahrscheinlichkeit, genommen zu werden; zunächst 1/N) Fehler des Netzes Gewicht der Hypothese Gewichtsänderung: Normalisierung Hypothesengewichte: Kronecker Symbol

SS 2009Maschinelles Lernen und Neural Computation 143 Beispiel Aus Rätsch et al., Machine Learning 42(3), 2001 Großes Gewicht, da zuerst falsch klassifiziert Bagging

SS 2009Maschinelles Lernen und Neural Computation 144 Schwache und starke Lerner Starker Lerner: Für alle D, δ und ε gilt: Lerner erreicht Fehler e<ε mit Wahrscheinlichkeit 1-δ Schwacher Lerner: Erreicht das nur für δ ≥0.5-γ (γ … „edge“ des Lerners) entspricht einem Lerner, der wenig besser als Raten ist Boosting konvertiert das Ensemble von schwachen Lernern zu einem starken Lerner!

SS 2009Maschinelles Lernen und Neural Computation 145 Effekt des Boosting Boosting erzeugt Variation des schwachen Lerners (erst dann sind Fehler „unkorreliert“) Gewichtung wirkt wie und-Verknüpfung Aus schwachem wird starker Lerner Löst repräsentationales Problem bagging boosting

SS 2009Maschinelles Lernen und Neural Computation 146 MLPs als Boosting von Perceptrons Typischer Fall eines schwachen Lerners: Perceptron MLP ist gewichtete Summe von Perceptrons  Boosting kann als Trainingsalgorithmus für MLPs betrachtet werden Sequentielles Hinzufügen von Hidden Units Trainiert werden nur die Perceptrons

SS 2009Maschinelles Lernen und Neural Computation 147 Mixtures of Experts Jacobs et al., Neural Computation 1991 Idee: –mehrere Netze stehen im Wettstreit um den richtigen Output –Ein „gating network“ gewichtet die Outputs und entscheidet, welcher „expert“ das meiste zu sagen hat Expert Netz 1 Expert Netz 2 Expert Netz 3 … x Gating Netz f(x) pipi Gewicht = Wahrscheinlichkeit

SS 2009Maschinelles Lernen und Neural Computation 148 Probabilistische Formulierung von Ensembles Annahme: Ich kenne (habe) alle möglichen Hypothesen (den ganzen version space); dann: Hier lässt sich wieder die Bayes-Formel einsetzen  Bayes‘sche Inferenz Trainingsset Gewichtung= Wahrscheinlichkeit der Hypothese Likelihood des Modells A priori Wahrscheinlichkeit des Modells

SS 2009Maschinelles Lernen und Neural Computation 149 Zusammenfassung Ensemblemethoden bieten eine Verbesserung über einzelne Modelle (Hypothesen) Starker Zusammenhang mit statistischer Sicht (Bias/Varianz), aber aus Blickwinkel der Computational Learning Theory Geeignete Gewichtung von Beispielen und Hypothesen macht schwache zu starken Lernern  Ensemble kann auch Bias verringern Neue Sichtweise auf das MLP