| Informatik | TU Darmstadt | Prof. Johannes Fürnkranz | 1

Slides:



Advertisements
Ähnliche Präsentationen
Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Advertisements

Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Telefonnummer.
CPCP Institute of Clinical Pharmacology AGAH Annual Meeting, 29. Februar 2004, Berlin, Praktischer Umgang mit den Genehmigungsanträgen gemäß 12. AMG Novelle.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2012.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
1 JIM-Studie 2010 Jugend, Information, (Multi-)Media Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
= = = = 47 = 47 = 48 = =
EF: Standards + H2O red = H2O.
Rechneraufbau & Rechnerstrukturen, Folie 2.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 2.
Mh9S170Nr6 a. x1= –9; x2 = 1 b. x1= –4; x2 = 1 c. x1= 1; x2 = 2 d. leer e. x1= –15; x2 = 4,2 f. x1= –3,53; x2 = 1,28 g. leer h. x1= 0,2; x2 = 2 i. x1=
Internet facts 2008-II Graphiken zu dem Berichtsband AGOF e.V. September 2008.
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
PKJ 2005/1 Stefan Dissmann Zusammenfassung Bisher im Kurs erarbeitete Konzepte(1): Umgang mit einfachen Datentypen Umgang mit Feldern Umgang mit Referenzen.
Differentielles Paar UIN rds gm UIN
Maxwell-Boltzmann Ausgewählte Themen des analogen Schaltungsentwurfs
1Ausgewählte Themen des analogen Schaltungsentwurfs Zusammenfassung Einführung Teilchendetektore – Sensorstrukturen, Verstärker, Rauschen, Geschwindigkeit.
Differentieller Stromverstärker
Prof. Dr. Bernhard Wasmayr
Studienverlauf im Ausländerstudium
Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Kennlinie Lichtregelung in JavaNNS Version 1.1
Prof. Dr. Bernhard Wasmayr VWL 2. Semester
AWA 2007 Natur und Umwelt Natürlich Leben
Rechneraufbau & Rechnerstrukturen, Folie 12.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 12.
Bild 1.1 Copyright © Alfred Mertins | Signaltheorie, 2. Auflage Vieweg+Teubner PLUS Zusatzmaterialien Vieweg+Teubner Verlag | Wiesbaden.
20:00.
„Küsse deine Freunde“ – FlexKom-App teilen
Zusatzfolien zu B-Bäumen
In der Schule.
SK / , , in Hochkössen und der Wildschönau flow Ski- und Snowboardschule Intersport Menzel.
Eine Einführung in die CD-ROM
Dokumentation der Umfrage
für Weihnachten oder als Tischdekoration für das ganze Jahr
1 Ein kurzer Sprung in die tiefe Vergangenheit der Erde.
Wir üben die Malsätzchen
Syntaxanalyse Bottom-Up und LR(0)
Addieren und Subtrahieren von Dezimalzahlen
Analyse von Ablaufdiagrammen
Der Ablauf eines Clear Rex Klärzyklus
PROCAM Score Alter (Jahre)
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Geometrische Aufgaben
Symmetrische Blockchiffren DES – der Data Encryption Standard
Zahlentheorie und Zahlenspiele Hartmut Menzer, Ingo Althöfer ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List.
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Analyseprodukte numerischer Modelle
Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.
Zusammengestellt von OE3DSB
Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
Vortrag von Rechtsanwältin Verena Nedden, Fachanwältin für Steuerrecht zur Veranstaltung Wege zum bedingungslosen Grundeinkommen der Piratenpartei Rhein-Hessen.
1 Arbeitsgemeinschaft Biologische Psychiatrie Verordnungsgewohnheiten von Psychopharmaka Statuserhebung 2005 W.Günther G.Laux T.Messer N.Müller M.Schmauss.
1 Mathematical Programming Nichtlineare Programmierung.
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Unternehmensbewertung Thomas Hering ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List of Figures Tabellenübersicht.
Forschungsprojekt Statistik 2013 „Jugend zählt“ – Folie 1 Statistik 2013 „Jugend zählt“: Daten zur Arbeit mit Kindern und Jugendlichen.
Bildergalerie PRESEASON CAMP Juni 2014 Romanshorn Get ready for the Season!
Folie Einzelauswertung der Gemeindedaten
J-Team: Gymnasium Ulricianum Aurich und MTV Aurich Ein Projekt im Rahmen von UlricianumBewegt.de Euro haben wir schon…  8000 mal habt ihr bereits.
Datum:17. Dezember 2014 Thema:IFRS Update zum Jahresende – die Neuerungen im Überblick Referent:Eberhard Grötzner, EMA ® Anlass:12. Arbeitskreis Internationale.
1 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt Wie.
Einführung in die Volkswirtschaftslehre, Mikroökonomie und Wettbewerbspolitik Lothar Wildmann ISBN: © 2014 Oldenbourg Wissenschaftsverlag.
Sehen, Hören, Schmecken: wenn uns unsere Sinne täuschen
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
Monatsbericht Ausgleichsenergiemarkt Gas – Oktober
Monatsbericht Ausgleichsenergiemarkt Gas – November
 Präsentation transkript:

Regularisierung von neuralen Netwerken unter Verwendung von DropConnect Vortrag von Minh Duc Hoang 3.12.2013 | Informatik | TU Darmstadt | Prof. Johannes Fürnkranz | 1 28. März 2017 |

Inhalte Einleitung Motivation Modellbeschreibung Training and Inference Modell Generalisierung Bound Implementierungsdetails Experiment Ergebnisse Abschluss 3.12.2013 | Informatik | TU Darmstadt | Prof. Johannes Fürnkranz | 2

1.Einleitung Neuronale Netze sind gut klassifizierte, groß markierte Datensätze. Große Kapazität ist wesentlich -> mehr Schichten („layers“) und mehr Einheiten („units“) Problem: Überanpassung (Overfitting): Modell mit Millionen oder Milliarden von Parametern können leicht überangepasst werden blau: Fehler bzgl. Trainingsdatensätzen rot: Fehler bzgl. Testdatensätzen 3.12.2013 | Informatik | TU Darmstadt | Prof. Johannes Fürnkranz | 3

1.Einleitung Lösung für „ Overfitting“ : Regularisierungsmethoden l1 or l2 penalty Bayesian methods Early stopping of training DropOut network [Hinton et al. 2012] DropConnect network (das beobachten wir heute) ... 3.12.2013 | Informatik | TU Darmstadt | Prof. Johannes Fürnkranz | 4

Inhalte Einleitung Motivation Modellbeschreibung Training and Inference Modell Generalisierung Bound Implementierungsdetails Experiment Ergebnisse Abschluss 3.12.2013 | Informatik | TU Darmstadt | Prof. Johannes Fürnkranz | 5

2. Motivation Was ist DropConnect ? eine Generalisierung der Dropout zur Regularisierung großer, voll angeschlossener Schichten innerhalb neuronaler Netze. Voll angeschlossene Schichten (Ohne „Drop“): r = a(u) = a(W v) (1) Die Eingabe v (Vektor mit n Komponenten). Gewichtungsparameters W (Matrix der Größe dxn). Die nichtlineare Aktivierungsfunktion a() . Der Ausgang dieser Schicht r (Vektor mit d Komponenten). No-Drop Network 3.12.2013 | Informatik | TU Darmstadt | Prof. Johannes Fürnkranz | 6

2.1 Rückblick auf Dropout Wurde von [Hinton et al. 2012] vorgeschlagen. Stochastischer Abwurf der Ausgangsknoten : Jedes Element der Ausgang einer Schicht wird mit Wahrscheinlichkeit p gehalten, sonst auf 0 mit Wahrscheinlichkeit (1-p) gesetzt Der Ausgang als r = m ⋆ a(W v) (2) Annahme: neuronale Aktivierungsfunktion mit einer (0) = 0, wie tanh und relu (⋆ ist elementweise Multiplikation M ist eine binäre Maske der Größe d und mit jedem Element j : DropOut Network 3.12.2013 | Informatik | TU Darmstadt | Prof. Johannes Fürnkranz | 7

2.2 DropConnect Eine zufällig ausgewählte Untergruppe der Gewichte im Netzwerk wird auf null gesetzt (Drop Connection).Jede Verbindung kann mit Wahrscheinlichkeit 1-p fallen gelassen werden Generalisierung aus Dropout : r=a((M⋆W)v) (3) M ist Gewicht Maske, W vollständig verbundene Schichtgewichte und v vollständig verbundene Schicht-Eingänge. DropOut Network DropConnect Network 3.12.2013 | Informatik | TU Darmstadt | Prof. Johannes Fürnkranz | 8

Inhalte Einleitung Motivation Modellbeschreibung Training and Inference Modell Generalisierung Bound Implementierungsdetails Experiment Ergebnisse Abschluss 3.12.2013 | Informatik | TU Darmstadt | Prof. Johannes Fürnkranz | 9

3 Modellbeschreibung Vier Basiskomponente : Merkmal-Extraktor (Feature-Extractor) DropConnect Schicht Softmax Klassifizierungsschicht „Cross Entropy Loss“ 3.12.2013 | Informatik | TU Darmstadt | Prof. Johannes Fürnkranz | 10

3 Modellbeschreibung : Mischung-Modell von Netzwerk (Modell Mittel Interpretation) Das Gesamtmodel ist ,damit . Der richtige Wert von o wird durch die Summe über alle möglichen Masken M erhalten 3.12.2013 | Informatik | TU Darmstadt | Prof. Johannes Fürnkranz | 11

Inhalte Einleitung Motivation Modellbeschreibung Training and Inference Modell Generalisierung Bound Implementierungsdetails Experiment Ergebnisse Abschluss 3.12.2013 | Informatik | TU Darmstadt | Prof. Johannes Fürnkranz | 12

4 Training and Inference Für jedes Training (beispielsweise bei jeder Epoche) gibt es eine andere binäre Maske Matrix M Rückwärts-Prop-Gradienten verwendet die gleiche Matrix „M“ als Vorwärts-Prop für jedes Beispiel Verwendet SGD(Stochastic gradient descent) mit „mini-batch“ Effiziente Umsetzung erfordert Sorgfalt 3.12.2013 | Informatik | TU Darmstadt | Prof. Johannes Fürnkranz | 13

4 Trainning and Inference DropOut Netzwerk Inference (Mittel-Inferenz): Näherung durch Änderung der Reihenfolge der Erwartung und der Neuronenaktivierung : 3.12.2013 | Informatik | TU Darmstadt | Prof. Johannes Fürnkranz | 14

4 Trainning and Inference DropOut Netzwerk Inference  (Sampling): Neuron-Aktivierung wird von einer Gauß-Verteilung über „moment matching“ angenähert: 3.12.2013 | Informatik | TU Darmstadt | Prof. Johannes Fürnkranz | 15

Inhalte Einleitung Motivation Modellbeschreibung Training and Inference Modell Generalisierung Bound Implementierungsdetails Experiment Ergebnisse Abschluss 3.12.2013 | Informatik | TU Darmstadt | Prof. Johannes Fürnkranz | 16

5 Modell Generalisierung Bound Rademacher Complexity of Model k ist die Anzahl der Klassen, die Rademacher-Komplexität der Merkmal-Extraktor, n und d die Dimensionen des Eingangs und Ausgangs der DropConnect-Schicht jeweils: Spezialfälle von p: p = 0: Die Komplexität des Modells ist Null, da der Eingang keinen Einfluss auf die Ausgabe hat. p = 1: liefert die Komplexität des Standardmodells. p = 1/2: alle Sub-Modelle haben die gleichen Priorität. 3.12.2013 | Informatik | TU Darmstadt | Prof. Johannes Fürnkranz | 17

Inhalte Einleitung Motivation Modellbeschreibung Training and Inference Modell Generalisierung Bound Implementierungsdetails Experiment Ergebnisse Abschluss 3.12.2013 | Informatik | TU Darmstadt | Prof. Johannes Fürnkranz | 18

6 Implementierungsdetails Dieses System besteht aus die drei auf GPU implementierten Komponenten Merkmal-Extraktor (Feature-Extractor) ->nutzen Cuda-convnet Paket DropConnect Schicht -> nutzen eigeine GPU-Kernel Softmax Klassifizierungsschicht ->nutzen Cuda-convnet CUDA-Code in http:///cs.nyu.edu/~wanli/dropc. Tricks kodieren Verbindungsinformationen in Bits Binden die Maske von Gewichtsmatrix zu 2D-Textur-Speicher 3.12.2013 | Informatik | TU Darmstadt | Prof. Johannes Fürnkranz | 19

6 Implementierungsdetails Implementation Mask Weight Time(ms) Speedup fprop bprop acts bprop weight total CPU float 480.2 1228.6 1692.8 3401.6 1.0 x bit 392.3 679.1 759.7 1831.1 1.9 x float(global memory) 21.6 6.2 7.2 35.0 97.2 x float(tex1D memory) 15.1 6.1 6.0 27.2 126.0 x bit(tex2D aligned memory) 2.4 2.7 3.1 8.2 414.8 x CPU(Lower Bound) cuBlas + read mask weight 0.3 0.2 0.8 Performance-Vergleich zwischen unterschiedlichen Umsetzung der DropConnect Schicht auf NVidia GTX 580 GPU, bezogen auf 2.67GHz Intel Xeon (kompiliert mit-O3-Flag). Eingangs-und Ausgangs Dimension 1024 und Mini-Batch-Größe ist 128 3.12.2013 | Informatik | TU Darmstadt | Prof. Johannes Fürnkranz | 20

Inhalte Einleitung Motivation Modellbeschreibung Training and Inference Modell Generalisierung Bound Implementierungsdetails Experiment Ergebnisse Abschluss 3.12.2013 | Informatik | TU Darmstadt | Prof. Johannes Fürnkranz | 21

7 Experiment Ergebnisse Datenmenge : MNIST CIFAR-10 SVHN NORB 3.12.2013 | Informatik | TU Darmstadt | Prof. Johannes Fürnkranz | 22

MNIST 3.12.2013 | Informatik | TU Darmstadt | Prof. Johannes Fürnkranz | 23

7.1 (a) Overfitting verhindern MNIST Testfehler mit zwei versteckten Schicht-Netzwerken (p = 0.5) 3.12.2013 | Informatik | TU Darmstadt | Prof. Johannes Fürnkranz | 24

7.1 (b) Das Variieren der Drop-Rate MNIST Testfehler mit zwei versteckten Schicht-Netzwerken mit je 400 Neuronen 3.12.2013 | Informatik | TU Darmstadt | Prof. Johannes Fürnkranz | 25

7.1 (c)Konvergenz Vergleich MNIST Testfehler mit zwei versteckten Schicht-Netzwerken mit je 400 Neuronen 3.12.2013 | Informatik | TU Darmstadt | Prof. Johannes Fürnkranz | 26

7.2 MNIST: MNIST 784-800-800-10 Netzwerk Einstufung Fehlerrate ohne Datenvergrößerung: Neuron Modell error(%) 5 network voting relu No-Drop Dropout DropConnect 1.62 ± 0.037 1.28 ± 0.040 1.20 ± 0.034 1.40 1.20 1.12 sigmoid 1.78 ± 0.037 1.38 ± 0.039 1.55 ± 0.046 1.74 1.36 1.48 tanh 1.65 ± 0.026 1.58 ± 0.053 1.36 ± 0.054 1.49 1.55 1.35 3.12.2013 | Informatik | TU Darmstadt | Prof. Johannes Fürnkranz | 27

7.2 MNIST: Klassifikationsfehler Vorherige state-of-the-art ist: crop rotation scaling Modell error(%) 5 network voting no No-Drop Dropout DropConnect 0.77 ± 0.051 0.59 ± 0.039 0.63 ± 0.035 0.67 0.52 0.57 yes 0.50 ± 0.098 0.39 ± 0.039 0.39 ± 0.047 0.38 0.35 0.32 0.30 ± 0.035 0.28 ± 0.016 0.28 ± 0.032 0.21 0.27 Vorherige state-of-the-art ist: 0.23% mit elastischen Verzerrungen und Abstimmung [Ciresan et al. 2012] 3.12.2013 | Informatik | TU Darmstadt | Prof. Johannes Fürnkranz | 28

7.2 MNIST: 3.12.2013 | Informatik | TU Darmstadt | Prof. Johannes Fürnkranz | 29

7.3 CIFAR-10 3.12.2013 | Informatik | TU Darmstadt | Prof. Johannes Fürnkranz | 30

7.3 CIFAR-10 Vorherige state-of-the-art ist: 9.5% [Snoek et al. 2012] Modell error(%) 5 network voting No-Drop Dropout DropConnect 11.18 ± 0.13 11.52 ± 0.18 11.10 ± 0.13 10.22 9.83 9.41 Abstimmung mit 12 DropConnect Netzwerk gibt den neuen state-of-the-art von 9.32% 3.12.2013 | Informatik | TU Darmstadt | Prof. Johannes Fürnkranz | 31

7.3 CIFAR-10 3.12.2013 | Informatik | TU Darmstadt | Prof. Johannes Fürnkranz | 32

7.4 SVHN 3.12.2013 | Informatik | TU Darmstadt | Prof. Johannes Fürnkranz | 33

7.4 SVHN Vorherige state-of-the-art ist: 2.8% Stochastische Zusammenlegung[Zeiler and Fergus et al. 2013] Modell error(%) 5 network voting No-Drop Dropout DropConnect 2.26 ± 0.072 2.25 ± 0.034 2.23 ± 0.039 1.94 1.96 3.12.2013 | Informatik | TU Darmstadt | Prof. Johannes Fürnkranz | 34

7.4 SVHN 3.12.2013 | Informatik | TU Darmstadt | Prof. Johannes Fürnkranz | 35

7.5 NORB Vorherige state-of-the-art ist: 3.57% [Ciresan et al., 2012]. Modell error(%) 5 network voting No-Drop Dropout DropConnect 4.48 ± 0.78 3.96 ± 0.16 4.14 ± 0.06 3.36 3.03 3.23 3.12.2013 | Informatik | TU Darmstadt | Prof. Johannes Fürnkranz | 36

7.6 Ergebnisse DataSet DropConnect Dropout Previous best result MNIST 0.21 0.27 0.23 CIFAR-10 9.32 9.83 9.5 SVHN 1.94 1.96 2.80 NORB-full-2fold 3.23 3.03 3.57 3.12.2013 | Informatik | TU Darmstadt | Prof. Johannes Fürnkranz | 37

Inhalte Einleitung Motivation Modellbeschreibung Training and Inference Modell Generalisierung Bound Implementierungsdetails Experiment Ergebnisse Abschluss 3.12.2013 | Informatik | TU Darmstadt | Prof. Johannes Fürnkranz | 38

8 Abschluss DropConnect Netzwerk: Eine einfacher stochastischer Regularisierungsalgorithmus für neuronalen Netzwerk Generalisierung der Dropout von Hinton Nur wirksam auf vollständig verbundene Schichten und mit Aktivierungsfunktion relu und tanh ( mit a(0) = 0 ) Setzen neue state-of-the-Art auf drei beliebten Datensätzen (MNIST,CIFAR-10 ,SVHN ) 3.12.2013 | Informatik | TU Darmstadt | Prof. Johannes Fürnkranz | 39