Slides:

Advertisements

Ähnliche Präsentationen

Präsentiert von Torben Pastuch

Advertisements

Perceptrons and the perceptron learning rule

Anzahl der ausgefüllten und eingesandten Fragebögen: 211

Wismar Business School

Simulation komplexer technischer Anlagen

Gruppenwettbewerb. Gruppenwettbewerb Aufgabe G1 (8 Punkte)

LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)

Genetische Algorithmen für die Variogrammanpassung

Simulated Annealing Marco Block & Miguel Domingo Seminar : Maschinelles Lernen und Markov KettenSommersemester 2002.

Terme mit Variablen Beispiel: Ein Quadrat hat immer 4 gleichlange Seiten. Der Umfang des Quadrats ist die Summe aller Seitenlängen. Auch wenn wir noch.

Newton-Verfahren Standardverfahren bringt keine Nullstelle

Minimieren ohne Ableitungen

Sortierverfahren Richard Göbel.

Lösung linearer Gleichungssysteme

Rechneraufbau & Rechnerstrukturen, Folie 2.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 2.

Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.

K. Desch - Statistik und Datenanalyse SS05

PG 520 Intelligence Service – gezielte Informationen aus dem Internet

Institut für Angewandte Mikroelektronik und Datentechnik Fachbereich Elektrotechnik und Informationstechnik, Universität Rostock Programmierung eingebetteter.

Prof. Dr. Bernhard Wasmayr

Datenstrom (Propagation) Fehlerstrom (Backpropagation)

Minimum Spanning Tree: MST

Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)

Prof. Dr. Bernhard Wasmayr VWL 2. Semester

AWA 2007 Natur und Umwelt Natürlich Leben

Neuronale Netze 2 (Mitchell Kap. 4)

Effiziente Algorithmen

Universität Stuttgart Wissensverarbeitung und Numerik I nstitut für K ernenergetik und E nergiesysteme Numerik partieller Differentialgleichungen, SS 01Teil.

Eine Einführung in die CD-ROM

Effiziente Algorithmen

Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Geoinformation II Vorlesung 7 SS 2000 Punkt-in-Polygon-Verfahren I (Trapezkarte)

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen

Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/

Information und Kommunikation Hartmut Klauck Universität Frankfurt SS

Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/

… oder wie finde ich den Weg

Methode der kleinsten Quadrate

Bitte F5 drücken.

Teil 2: Kurven und Flächen

Potenzen und Wurzeln Zusammenfassung

Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.

MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO

Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)

Klassifikation und Regression mittels neuronaler Netze

Forschungsprojekt Statistik 2013 „Jugend zählt“ – Folie 1 Statistik 2013 „Jugend zählt“: Daten zur Arbeit mit Kindern und Jugendlichen.

Stetige Kleinste-Quadrate-Approximation

Folie Einzelauswertung der Gemeindedaten

Datum:17. Dezember 2014 Thema:IFRS Update zum Jahresende – die Neuerungen im Überblick Referent:Eberhard Grötzner, EMA ® Anlass:12. Arbeitskreis Internationale.

Nichtlineare Optimierung

Vom Neuron bis zur Boltzmann Maschine Miguel Domingo & Marco Block Seminar : Maschinelles Lernen und Markov KettenSommersemester 2002.

SS 2009Maschinelles Lernen und Neural Computation 107 Kapitel 6: Unüberwachtes Lernen.

SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.

Deterministische Verfahren

Gliederung der Vorlesung

Design und Optimierung optischer Systeme durch Neuronale Netze und Genetische Algorithmen.

In PBPK Schätzung von Modellparametern. Direktes Problem vs. Inverses Problem Direktes Problem: gegeben Kompartimentenmode ll K, Parameter p Input x gesucht.

Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.

Kapitel 2: Klassifikation

Neuronale Netze und Parallelrechner

Präsentation transkript:

Kapitel 4: Lernen als Optimierung SS 2009 Maschinelles Lernen und Neural Computation

Lernen als Funktionsoptimierung Gegeben: Fehlerfunktion (i.a. neg. log Likelihood) z.B.: Gesucht: Gewichte (Parameter), die Funktion minimieren Klassischer Fall von Funktionsoptimierung  Optimierungstheorie SS 2009 Maschinelles Lernen und Neural Computation

und Neural Computation Fehlerflächen Für Minimum gilt: Gradient 2-dim- Bsp.: Rosenbrock-Funktion, Minimum bei [1 1] Flache Täler möglich, aber auch Sattelpunkte, steile Minima, etc. SS 2009 Maschinelles Lernen und Neural Computation

Gradient der Fehlerfunktion Optimierung basiert auf Gradienteninformation: Beitrag der Fehlerfunktion Beitrag des Netzes Backpropagation (nach Bishop 1995): effiziente Berechnung des Gradienten (Beitrag des Netzes): O(W) statt O(W2), siehe p.146f ist unabhängig von der gewählten Fehlerfunktion SS 2009 Maschinelles Lernen und Neural Computation

Gradientenabstiegsverfahren Einfachstes Verfahren: Ändere Gewichte direkt proportional zum Gradienten  klassische „Backpropagation“ (lt. NN-Literatur) Langsam, Oszillationen und sogar Divergenz möglich Endpunkt nach 100 Schritten: [-1.11, 1.25], ca. 2900 flops SS 2009 Maschinelles Lernen und Neural Computation

Gradientenabstieg mit Momentum Momentum=„Trägheit“ Dämpft manche Oszillationen, erzeugt aber neue, beschleunigt (vergleichbar mit rollender Kugel), immer noch Divergenz möglich Endpunkt nach 100 Schritten: [0.52, 0.26]; ca. 3100 flops SS 2009 Maschinelles Lernen und Neural Computation

und Neural Computation Line Search Ziel: Schritt bis ins Minimum in der gewählten Richtung Approximation durch Parabel (3 Punkte) Ev. 2-3 mal wiederholen Endpunkt nach 100 Schritten: [0.78, 0.61], ca. 47000 flops SS 2009 Maschinelles Lernen und Neural Computation

Konjugierte Gradienten Problem des Line Search: neuer Gradient ist normal zum alten Nimm Suchrichtung, die Minimierung in vorheriger Richtung beibehält Wesentlich gezielteres Vorgehen Variante: skalierter konjugierter Gradient dt dt+1 wt+1 wt Endpunkt nach 18 Schritten: [0.99, 0.99], ca. 11200 flops SS 2009 Maschinelles Lernen und Neural Computation

Quadratische Approximation Annäherung der Fläche um einen beliebigen Punkt: Hesse‘sche Matrix (alle 2. Ableitungen) Entspricht Paraboloid Annäherungsweise: „Newton Richtung“, zeigt direkt Richtung Minimum (wenn Fläche quadratisch)  Newton Methode SS 2009 Maschinelles Lernen und Neural Computation

und Neural Computation Quasi-Newton Rechenaufwand für Hesse Matrix enorm Quasi-Newton: approximiert die Inverse der Hesse Matrix In Umgebung des Minimums sehr zielführend In anderen Gegenden kann es auch schlechter sein Erreicht hier (!) als einzige Methode wirklich das Minumum Endpunkt nach 34 Schritten: [1 1], ca. 9500 flops SS 2009 Maschinelles Lernen und Neural Computation

und Neural Computation Mehrere Minima Alle vorgestellten Verfahren sind lokale Optimierer Globale Optimierer: Genetische Algorithmen, Stochastic Annealing Es kann mehrere (lokale) Minima geben! Verschiedene Minima können verschiedenen Teillösungen entsprechen  mehrere Durchläufe mit verschiedenen Initialisierungen Aber: es gibt auch äquivalente Minima (durch Permutation der Hidden Units und Vertauschen der Vorzeichen): M!2M äquivalente Minima (bei M H.U.) SS 2009 Maschinelles Lernen und Neural Computation

und Neural Computation Zusammenfassung Gradientenbasierte Verfahren sind mächtige lokale Optimierer Klassisches „Backpropagation“ (Gradientenabstieg) ist das schwächste davon Aber: Backprop heißt effiziente Berechnung des Gradienten für neuronale Netze Auch 2. Ableitung (Krümmung) nutzbar Dringende Empfehlung: (skaliertes) konjugiertes Gradienten- oder Quasi-Newton-Verfahren verwenden! SS 2009 Maschinelles Lernen und Neural Computation