Slides:



Advertisements
Ähnliche Präsentationen
Präsentiert von Torben Pastuch
Advertisements

Perceptrons and the perceptron learning rule
Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Wismar Business School
Simulation komplexer technischer Anlagen
Gruppenwettbewerb. Gruppenwettbewerb Aufgabe G1 (8 Punkte)
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Telefonnummer.
Genetische Algorithmen für die Variogrammanpassung
Simulated Annealing Marco Block & Miguel Domingo Seminar : Maschinelles Lernen und Markov KettenSommersemester 2002.
Terme mit Variablen Beispiel: Ein Quadrat hat immer 4 gleichlange Seiten. Der Umfang des Quadrats ist die Summe aller Seitenlängen. Auch wenn wir noch.
Newton-Verfahren Standardverfahren bringt keine Nullstelle
Minimieren ohne Ableitungen
Sortierverfahren Richard Göbel.
Lösung linearer Gleichungssysteme
Rechneraufbau & Rechnerstrukturen, Folie 2.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 2.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
K. Desch - Statistik und Datenanalyse SS05
PG 520 Intelligence Service – gezielte Informationen aus dem Internet
Institut für Angewandte Mikroelektronik und Datentechnik Fachbereich Elektrotechnik und Informationstechnik, Universität Rostock Programmierung eingebetteter.
Prof. Dr. Bernhard Wasmayr
Datenstrom (Propagation) Fehlerstrom (Backpropagation)
Minimum Spanning Tree: MST
Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Prof. Dr. Bernhard Wasmayr VWL 2. Semester
AWA 2007 Natur und Umwelt Natürlich Leben
Neuronale Netze 2 (Mitchell Kap. 4)
Effiziente Algorithmen
Universität Stuttgart Wissensverarbeitung und Numerik I nstitut für K ernenergetik und E nergiesysteme Numerik partieller Differentialgleichungen, SS 01Teil.
Eine Einführung in die CD-ROM
Effiziente Algorithmen
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Geoinformation II Vorlesung 7 SS 2000 Punkt-in-Polygon-Verfahren I (Trapezkarte)
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/


… oder wie finde ich den Weg
Methode der kleinsten Quadrate
Bitte F5 drücken.
Teil 2: Kurven und Flächen
Potenzen und Wurzeln Zusammenfassung
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO

Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
Klassifikation und Regression mittels neuronaler Netze
Forschungsprojekt Statistik 2013 „Jugend zählt“ – Folie 1 Statistik 2013 „Jugend zählt“: Daten zur Arbeit mit Kindern und Jugendlichen.
Stetige Kleinste-Quadrate-Approximation
Folie Einzelauswertung der Gemeindedaten
Datum:17. Dezember 2014 Thema:IFRS Update zum Jahresende – die Neuerungen im Überblick Referent:Eberhard Grötzner, EMA ® Anlass:12. Arbeitskreis Internationale.
Nichtlineare Optimierung

Vom Neuron bis zur Boltzmann Maschine Miguel Domingo & Marco Block Seminar : Maschinelles Lernen und Markov KettenSommersemester 2002.
SS 2009Maschinelles Lernen und Neural Computation 107 Kapitel 6: Unüberwachtes Lernen.
SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.
Deterministische Verfahren
Gliederung der Vorlesung
Design und Optimierung optischer Systeme durch Neuronale Netze und Genetische Algorithmen.
In PBPK Schätzung von Modellparametern. Direktes Problem vs. Inverses Problem Direktes Problem: gegeben Kompartimentenmode ll K, Parameter p Input x gesucht.
Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.
Kapitel 2: Klassifikation
Neuronale Netze und Parallelrechner
 Präsentation transkript:

Kapitel 4: Lernen als Optimierung SS 2009 Maschinelles Lernen und Neural Computation

Lernen als Funktionsoptimierung Gegeben: Fehlerfunktion (i.a. neg. log Likelihood) z.B.: Gesucht: Gewichte (Parameter), die Funktion minimieren Klassischer Fall von Funktionsoptimierung  Optimierungstheorie SS 2009 Maschinelles Lernen und Neural Computation

und Neural Computation Fehlerflächen Für Minimum gilt: Gradient 2-dim- Bsp.: Rosenbrock-Funktion, Minimum bei [1 1] Flache Täler möglich, aber auch Sattelpunkte, steile Minima, etc. SS 2009 Maschinelles Lernen und Neural Computation

Gradient der Fehlerfunktion Optimierung basiert auf Gradienteninformation: Beitrag der Fehlerfunktion Beitrag des Netzes Backpropagation (nach Bishop 1995): effiziente Berechnung des Gradienten (Beitrag des Netzes): O(W) statt O(W2), siehe p.146f ist unabhängig von der gewählten Fehlerfunktion SS 2009 Maschinelles Lernen und Neural Computation

Gradientenabstiegsverfahren Einfachstes Verfahren: Ändere Gewichte direkt proportional zum Gradienten  klassische „Backpropagation“ (lt. NN-Literatur) Langsam, Oszillationen und sogar Divergenz möglich Endpunkt nach 100 Schritten: [-1.11, 1.25], ca. 2900 flops SS 2009 Maschinelles Lernen und Neural Computation

Gradientenabstieg mit Momentum Momentum=„Trägheit“ Dämpft manche Oszillationen, erzeugt aber neue, beschleunigt (vergleichbar mit rollender Kugel), immer noch Divergenz möglich Endpunkt nach 100 Schritten: [0.52, 0.26]; ca. 3100 flops SS 2009 Maschinelles Lernen und Neural Computation

und Neural Computation Line Search Ziel: Schritt bis ins Minimum in der gewählten Richtung Approximation durch Parabel (3 Punkte) Ev. 2-3 mal wiederholen Endpunkt nach 100 Schritten: [0.78, 0.61], ca. 47000 flops SS 2009 Maschinelles Lernen und Neural Computation

Konjugierte Gradienten Problem des Line Search: neuer Gradient ist normal zum alten Nimm Suchrichtung, die Minimierung in vorheriger Richtung beibehält Wesentlich gezielteres Vorgehen Variante: skalierter konjugierter Gradient dt dt+1 wt+1 wt Endpunkt nach 18 Schritten: [0.99, 0.99], ca. 11200 flops SS 2009 Maschinelles Lernen und Neural Computation

Quadratische Approximation Annäherung der Fläche um einen beliebigen Punkt: Hesse‘sche Matrix (alle 2. Ableitungen) Entspricht Paraboloid Annäherungsweise: „Newton Richtung“, zeigt direkt Richtung Minimum (wenn Fläche quadratisch)  Newton Methode SS 2009 Maschinelles Lernen und Neural Computation

und Neural Computation Quasi-Newton Rechenaufwand für Hesse Matrix enorm Quasi-Newton: approximiert die Inverse der Hesse Matrix In Umgebung des Minimums sehr zielführend In anderen Gegenden kann es auch schlechter sein Erreicht hier (!) als einzige Methode wirklich das Minumum Endpunkt nach 34 Schritten: [1 1], ca. 9500 flops SS 2009 Maschinelles Lernen und Neural Computation

und Neural Computation Mehrere Minima Alle vorgestellten Verfahren sind lokale Optimierer Globale Optimierer: Genetische Algorithmen, Stochastic Annealing Es kann mehrere (lokale) Minima geben! Verschiedene Minima können verschiedenen Teillösungen entsprechen  mehrere Durchläufe mit verschiedenen Initialisierungen Aber: es gibt auch äquivalente Minima (durch Permutation der Hidden Units und Vertauschen der Vorzeichen): M!2M äquivalente Minima (bei M H.U.) SS 2009 Maschinelles Lernen und Neural Computation

und Neural Computation Zusammenfassung Gradientenbasierte Verfahren sind mächtige lokale Optimierer Klassisches „Backpropagation“ (Gradientenabstieg) ist das schwächste davon Aber: Backprop heißt effiziente Berechnung des Gradienten für neuronale Netze Auch 2. Ableitung (Krümmung) nutzbar Dringende Empfehlung: (skaliertes) konjugiertes Gradienten- oder Quasi-Newton-Verfahren verwenden! SS 2009 Maschinelles Lernen und Neural Computation