Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

SS 2009Maschinelles Lernen und Neural Computation 71 Kapitel 4: Lernen als Optimierung.

Ähnliche Präsentationen


Präsentation zum Thema: "SS 2009Maschinelles Lernen und Neural Computation 71 Kapitel 4: Lernen als Optimierung."—  Präsentation transkript:

1 SS 2009Maschinelles Lernen und Neural Computation 71 Kapitel 4: Lernen als Optimierung

2 SS 2009Maschinelles Lernen und Neural Computation 72 Lernen als Funktionsoptimierung Gegeben: Fehlerfunktion (i.a. neg. log Likelihood) z.B.: Gesucht: Gewichte (Parameter), die Funktion minimieren Klassischer Fall von Funktionsoptimierung Optimierungstheorie

3 SS 2009Maschinelles Lernen und Neural Computation 73 Fehlerflächen Für Minimum gilt: Gradient 2-dim- Bsp.: Rosenbrock-Funktion, Minimum bei [1 1] Flache Täler möglich, aber auch Sattelpunkte, steile Minima, etc.

4 SS 2009Maschinelles Lernen und Neural Computation 74 Gradient der Fehlerfunktion Backpropagation (nach Bishop 1995): effiziente Berechnung des Gradienten (Beitrag des Netzes): O(W) statt O(W 2 ), siehe p.146f ist unabhängig von der gewählten Fehlerfunktion Beitrag der Fehlerfunktion Beitrag des Netzes Optimierung basiert auf Gradienteninformation:

5 SS 2009Maschinelles Lernen und Neural Computation 75 Gradientenabstiegsverfahren Einfachstes Verfahren: Ändere Gewichte direkt proportional zum Gradienten klassische Backpropagation (lt. NN-Literatur) Langsam, Oszillationen und sogar Divergenz möglich Endpunkt nach 100 Schritten: [-1.11, 1.25], ca flops

6 SS 2009Maschinelles Lernen und Neural Computation 76 Gradientenabstieg mit Momentum Momentum=Trägheit Dämpft manche Oszillationen, erzeugt aber neue, beschleunigt (vergleichbar mit rollender Kugel), immer noch Divergenz möglich Endpunkt nach 100 Schritten: [0.52, 0.26]; ca flops

7 SS 2009Maschinelles Lernen und Neural Computation 77 Line Search Ziel: Schritt bis ins Minimum in der gewählten Richtung Approximation durch Parabel (3 Punkte) Ev. 2-3 mal wiederholen Endpunkt nach 100 Schritten: [0.78, 0.61], ca flops

8 SS 2009Maschinelles Lernen und Neural Computation 78 Konjugierte Gradienten Problem des Line Search: neuer Gradient ist normal zum alten Nimm Suchrichtung, die Minimierung in vorheriger Richtung beibehält Wesentlich gezielteres Vorgehen Variante: skalierter konjugierter Gradient Endpunkt nach 18 Schritten: [0.99, 0.99], ca flops dtdt d t+1 w t+1 wtwt

9 SS 2009Maschinelles Lernen und Neural Computation 79 Entspricht Paraboloid Quadratische Approximation Annäherung der Fläche um einen beliebigen Punkt: Hessesche Matrix (alle 2. Ableitungen) Annäherungsweise: Newton Richtung, zeigt direkt Richtung Minimum (wenn Fläche quadratisch) Newton Methode

10 SS 2009Maschinelles Lernen und Neural Computation 80 Quasi-Newton Rechenaufwand für Hesse Matrix enorm Quasi-Newton: approximiert die Inverse der Hesse Matrix In Umgebung des Minimums sehr zielführend In anderen Gegenden kann es auch schlechter sein Erreicht hier (!) als einzige Methode wirklich das Minumum Endpunkt nach 34 Schritten: [1 1], ca flops

11 SS 2009Maschinelles Lernen und Neural Computation 81 Mehrere Minima Alle vorgestellten Verfahren sind lokale Optimierer Globale Optimierer: Genetische Algorithmen, Stochastic Annealing Es kann mehrere (lokale) Minima geben! Verschiedene Minima können verschiedenen Teillösungen entsprechen mehrere Durchläufe mit verschiedenen Initialisierungen Aber: es gibt auch äquivalente Minima (durch Permutation der Hidden Units und Vertauschen der Vorzeichen): M!2 M äquivalente Minima (bei M H.U.)

12 SS 2009Maschinelles Lernen und Neural Computation 82 Zusammenfassung Gradientenbasierte Verfahren sind mächtige lokale Optimierer Klassisches Backpropagation (Gradientenabstieg) ist das schwächste davon Aber: Backprop heißt effiziente Berechnung des Gradienten für neuronale Netze Auch 2. Ableitung (Krümmung) nutzbar Dringende Empfehlung: (skaliertes) konjugiertes Gradienten- oder Quasi-Newton-Verfahren verwenden!


Herunterladen ppt "SS 2009Maschinelles Lernen und Neural Computation 71 Kapitel 4: Lernen als Optimierung."

Ähnliche Präsentationen


Google-Anzeigen