Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Lernen und Klassifizieren AS2-2 Rüdiger Brause: Adaptive Systeme AS-2 WS 2013 Stochast. Klassifikation Lernen und Zielfunktion Lernen linearer Klassifikation.

Ähnliche Präsentationen


Präsentation zum Thema: "Lernen und Klassifizieren AS2-2 Rüdiger Brause: Adaptive Systeme AS-2 WS 2013 Stochast. Klassifikation Lernen und Zielfunktion Lernen linearer Klassifikation."—  Präsentation transkript:

1

2 Lernen und Klassifizieren AS2-2

3 Rüdiger Brause: Adaptive Systeme AS-2 WS 2013 Stochast. Klassifikation Lernen und Zielfunktion Lernen linearer Klassifikation Lernen in Multilayer-Netzen Backpropagation-Lernen Lineare Klassifikation Assoziativspeicher

4 Rüdiger Brause: Adaptive Systeme AS-2 WS Neuro-Modell des Assoziativspeichers Funktion: Jede Komp.ist lin. Summe z i = w i x Nichtlin. Ausgabe: y i = S B (z i ) = Lernen von W ?

5 Rüdiger Brause: Adaptive Systeme AS-2 WS Lernen im Assoziativspeicher Speichern aller N Muster mit Hebbscher Regel Auslesen eines Musters r y = Wx r = z = r L r (x r ) T x r + assoziierte Antwort + Übersprechen von anderen Mustern Orthogonale Muster x r : Übersprechen = 0, exakte Reproduktion. Nicht-orthogonale Muster: Schwellwerte nötig zum Unterdrücken des Übersprechens.

6 Rüdiger Brause: Adaptive Systeme AS-2 WS Trennung mehrerer Klassen Erinnerung: Lineare Separierung xrxr xpxp xkxk xqxq x2x2 x1x1 (1,0) (0,0) (0,1) (1,1) 1 Neuron: 1 Trennlinie (Ebene) 2 Neurone: 2 Trennlinien (Ebenen) Bereiche trennbar

7 Rüdiger Brause: Adaptive Systeme AS-2 WS Trennung mehrerer Klassen Problem: Klassenentscheidung über Korrelationsgröße xpxp xqxq x2x2 x1x1 Entscheidung über x: Klasse p: xx p > xx q Klasse q: xx p < xx q Frage: x = x p : In welche Klasse? Antwort: in Klasse q ! Lösung (x-y) 2 = x 2 -2xy +y 2 ist minimal xy ist maximal genau dann, wenn Konstante Länge c = |x|=|y| (normierte Musteraktivität)

8 Rüdiger Brause: Adaptive Systeme AS-2 WS Trennung mehrerer Klassen Erweiterung der Mustertupel x X = x 0, x 1, x 2,..., x n ) mit |x| = const weil x 2 0 = c 2 – | x 1, x 2,..., x n )| 2 > 0 (!) Einbettung in den Hyperraum Beispiel: 2-dim 3-dim c x x2x2 x1x1 x3x3 xrxr xkxk xqxq xpxp Entscheidung durch cos ( ) = = c –2 x T x r cos( ) monoton fallend Winkel als Distanzmaß min max Korrelation

9 Rüdiger Brause: Adaptive Systeme AS-2 WS Assoziativspeicher: Speicherkapazität M Tupel (x,y) gegeben: Wie viele können zuverlässig gespeichert werden? x 1 = x 2 =...= x M : nur ein Muster speicherbar. y 1 = y 2 =...= y M : beliebig viele Muster speicherbar, da Antwort y immer richtig. Problem der Kodierung der Muster ! Sei |x| = a. Maximaler Musterabstand max d(x p,x q ) = min x p x q = 0 bei orthogonalen Mustern Reelle Komponenten: n Dimensionen n orthogonale Basisvektoren Binäre Komponenten: M max = z.B. n=100, a=10, also max M=10 Mittlere Abstand maximal z.B. n = 100 max M 2 n /n

10 Rüdiger Brause: Adaptive Systeme AS-2 WS Assoziativspeicher: Binärspeicher Spärliche Kodierung Binäre Muster Speichern:w ij = V p y i p x j p = max p y i p x j p Kapazität:H B = ln 2 = 0,693 Bit pro Speicherzelle Palm 1980 vergleichbar mit CAM-Speicher Kodierung k = a x = ld m j = a y = O(log n) CAM vs. Ass.matrix Konstante Zahl von 1 durch eine Leitung pro Eingabecode

11 Rüdiger Brause: Adaptive Systeme AS-2 WS 2013 Stochast. Klassifikation Lernen und Zielfunktion Lernen linearer Klassifikation Lernen in Multilayer-Netzen Backpropagation-Lernen Lineare Klassifikation Assoziativspeicher

12 Klassenbildung heute Objekte werden durch Merkmale beschrieben z.B. qualitativ Mensch = (groß, braune Augen, dunkle Haare, nett,...) quantitativ Mensch = (Größe=1,80m, Augenfarbe=2, Haarfarbe=7,...) Idee = Form = Klassenprototyp Muster eines Objekts (Breite, Höhe) = x Breite c 2 Höhe c 1 Trennung von Klassen Blütensorte 1 Blütensorte 2 Klassenprototyp Klassifizierung = Ermitteln der Geradengleichung bzw Parameter c 1,c 2. Rüdiger Brause: Adaptive Systeme AS-2 WS 2013

13 Klassentrennung Breite x 1 c 2 Höhe x 2 c 1 Klassentrennung durch Trenngerade mit f(x 1 ) = x 2 = w 1 x 1 +w 3 z<0 z=0 bzw. z = w 1 x 1 +w 2 x 2 +w 3 x 3 = 0 z>0mit x 3 := 1 Mit z = = w T x Klassenentscheidung y = S(z) = Rüdiger Brause: Adaptive Systeme AS-2 WS 2013

14 Klassentrennung durch formales Neuron Klassentrennung durch binäres Neuron z = = w T x Klassenentscheidung y = S B (z) = z = w T x S B (z) y = 0: Klasse 1 y = 1: Klasse 2 x1x1 x2x2 x3x3 x n

15 Trennung mehrerer Klassen DEF Lineare Separierung Seien Muster x und Parameter w gegeben. Zwei Klassen 1 und 2 des Musterraums = 1 2 mit 1 2 = heißen linear separierbar, falls eine Hyperebene {x*} existiert mit g(x*) = w T x* = 0, so daß für alle x 1 gilt g(x)<0 und für alle x 2 gilt g(x)>0. Rüdiger Brause: Adaptive Systeme AS-2 WS 2013

16 ALSO : WIE erhalten wir die richtigen Gewichte, d.h. die richtige Klassifizierung ? Lernen ! Rüdiger Brause: Adaptive Systeme AS-2 WS 2013

17 Stochast. Klassifikation Lernen und Zielfunktion Lernen linearer Klassifikation Lernen in Multilayer-Netzen Backpropagation-Lernen Lineare Klassifikation Assoziativspeicher

18 DAS PERZEPTRON Rüdiger Brause: Adaptive Systeme AS-2 WS 2013

19 Das Perzeptron Idee: Reize wiedererkennen Rosenblatt 1958 Künstliche Retina Assoziations-Schicht Response-Schicht · · · · · · S A R X y Verbindungen zu A fix (zufällig): x = (x 1,...,x n ) T = ( 1 (S),..., n (S)) T Stärke der Verbindungen zu R veränderbar: w = (w 1,...,w n ) T

20 Rüdiger Brause: Adaptive Systeme AS-2 WS 2013 Das Perzeptron Entscheiden := {x} alle Muster, = : Menge aller x aus Klasse 1 2 : Menge aller x aus Klasse 2 DEF Log. Prädikat Mit den Erweiterungen x = (x 1,...,x n,1 ) T w = (w 1,..., w n,s ) T wird Schwelle

21 Das Perzeptron: Pseudo-code 3 PERCEPT3 : Wähle zufällige Gewichte w zum Zeitpunkt t:=0. REPEAT t:= t+1; w (t) = w (t–1) + (L(x) – y(x)) x (t)Fehler-Lernregel UNTIL ( alle x richtig klassifiziert ) Sogar ohne Umdefinition der Muster aus 2 ! DEF numerische Werte

22 Das Perzeptron: Konvergenz Perzeptron - Konvergenztheorem (Minsky Papert 1988) Wenn die Mustermenge i linear separierbar ist, so konvergiert der Algorithmus bei t Problem: Wenn Klassen sich überlappen, so wird die Grenzlinie bei = 1 immer hin und her geschoben

23 GRADIENTENABSTIEG Rüdiger Brause: Adaptive Systeme AS-2 WS 2013

24 Rüdiger Brause: Adaptive Systeme AS-1, WS Lernen durch Iteration Gradientenabstieg einer Zielfunktion R(w) w := (w (t-1) – w (t) ) ~ – w R(w (t–1) ) w (t) = w (t–1) – (t) w R(w (t–1) ) R(w) R(w) W (t w(t-1)w w) w* Rüdiger Brause: Adaptive Systeme AS-2 WS 2013

25 Das Perzeptron: Zielfunktion DEF Perzeptron-Zielfunktion Energie Ziel: Verallgemeinerung der Lernregel Hier: Minimierung aller Fehlentscheidungen mit L=1 Neuformulierung erwartetes Lernen: Gradient Stochast. Lernen d.h.

26 PERZEPTRONLEISTUNGEN Rüdiger Brause: Adaptive Systeme AS-2 WS 2013

27 Was kann ein Perzeptron ? Erwartung: Intelligente Leistungen durch Wahl von (S) Abbildung der Merkmale auf linear separierbare Mustermengen Perzeptronarten diameter-limited perceptrons nur Bildpunkte aus einem begrenzten Radius order-restricted perceptrons von maximal n (beliebigen) Bildpunkten abhängig random perceptrons eine zufällige Auswahl aller Bildpunkte

28 Was kann ein Perzeptron ? Topologische Prädikate, z.B. X ist ein Kreis ? X ist eine konvexe Figur ? X ist eine zusammenhängende Figur ?... Nur X hat Eulerzahl E E(X) : = K(X) – Anzahl der Löcher Tatsache: keine korrekte Klassifizierung von Punktmengen X (Bildpixeln) dieser Arten Nur X hat Eulerzahl E E(X) : = K(X) – Anzahl der Löcher Tatsache: keine korrekte Klassifizierung von Punktmengen X (Bildpixeln) dieser Arten

29 Was kann ein Perzeptron ? Eulerzahl E E(X) : = K(X) – Anzahl der Löcher K(X) : = zusammenhängende Komponenten Loch := zusamm. Komponente der komplementären Menge K(x) = 2, Löcher = 1 E(x) = 1

30 Was kann ein Perzeptron ? Beispiel: keine korrekte Klassifizierung von Punktmengen X (Bildpixeln) für Prädikat X ist Typ A möglich mit diameter-limited Perzeptron Typ A Nicht Typ A Muster 1 Muster 2 Muster 3 Muster 4

31 Was kann ein Perzeptron ? Beweis: offen: Typ A Nicht Typ A

32 ADALINE Rüdiger Brause: Adaptive Systeme AS-2 WS 2013

33 Rüdiger Brause: Adaptive Systeme AS-1, WS Fehleranzeige Adaline: Aktivität Schalterfeld für Eingabemuster Regler Summierer Schwellwert- regler w 0 Quantisierer S(z) Lehrer-Schalter für gewünschte Ausgabe Ausgabe y

34 Adaline: Aktivität Verlauf des Klassifizierungsfehlers für Klasse T liegt vor bei Präsentationen von T,G,F und sofortiger Nachregelung

35 Adaline: Lernalgorithmus Minimierung des erwarteten quadratischen Fehlers R(w,L) := (z (x) – L (x) ) 2 x = (w T x – L (x) ) 2 x durch Anpassung der Parameter w ( t ) = w ( t–1 ) – (t) R( w (t–1) ) w (t) = w (t-1) – (t) (w T x–L (x) )x stochastische Approximation w (t) = w (t–1) – (t) (w T x–L (x) ) Widrow-Hoff Lernregel

36 Übersicht: Lernen Assoziativspeicher 1. Muster x k eingespeichert w i (1) = L i k x k (Hebbsche Regel) Perzeptron w i (t) = w i (t-1) + (L i (x)-y i )x(Fehler-Lernregel) w i (1) = (L i (x k )-y i )x k = L i k x k bei w i (0) = 0 y i k (0) = 0. Adaline w i (t) = w i (t-1) + (t)(L(x)-z i )x (Gradientenabstieg) w i (1) = (L i (x k )-z i )x k = L i k x k bei w i (0) = 0 z i k (0) = 0. Assoziativspeicher = Grundfunktion von Netzen

37 Rüdiger Brause: Adaptive Systeme AS-2 WS 2013 Stochast. Klassifikation Lernen und Zielfunktion Lernen linearer Klassifikation Lernen in Multilayer-Netzen Backpropagation-Lernen Lineare Klassifikation Assoziativspeicher

38 Übersicht Lernarten Beispiel-basiertes Lernen (example based learning, feedback learning) Gegeben: ( Eingabe x, gewünschte Ausgabe L) Ziel: Differenz zwischen y und L im Laufe des Lernens klein machen. Erklärungs-basiertes Lernen (explanation based learning EBL) Gegeben: Beispielpaare, Ziel sowie Regeln, es zu erreichen. Lernen: Generalisierung der Beispiele. (regelbasierte Systeme, nicht bei neuronalen Netzen) Score-basiertes Lernen (reinforcement learning) Gegeben: skalares Gütemaß ("gut", "schlecht", mit Abstufungen dazwischen) für Lernleistung. Lernen: ?? Der Lernende muss daraus selbst sehen, was an der Ausgabe zu ändern ist. Unüberwachtes Lernen (observation based learning, emotion based learning, similarity learning) Gegeben: keine explizite Rückmeldung über die Güte seines Lernens Lernen: Vergleich gewünschte Auswirkungen mit beobachteten Auswirkungen. Folgerung für geeignete Verhaltensänderung.

39 Lernen durch Iteration Modifikationen Gradientenabstieg Taylorentwicklung f(x+ x) = f(x) + x + ( x) R(w+ w) – R(w) = w R(w) T w + ½ w T R w +... mit R = Hesse-Matrix Conjugate gradient R(w+ w) – R(w) = ( w R(w) T + ½ w T R ) w = 0 löse n-dim Gleichungssystem für w

40 w t+1 = w t –Newton-Verfahren Lernen durch Iteration Newton-Iteration F(w) f(w) f(w t ) ) w* w t+1 w t w t f(w t ) = = w t+1 = w t – y w

41 Lernen durch Iteration Konvergenz des Gradientenverfahrens Es ist R (t) =Ljapunov-Funktion mit Konvergenz, wenn R (t+1) < R (t) bzw. < 0 monoton fallend Ex. endliches R 0 < R (t) für jedes t Ljapunov-Bedingung Also: Wenndann Konvergenz Hinreichend dafür: = – w R(w) mit > 0 weil = – ( w R(w) ) 2 < 0 Mit und t = 1 ist w(t) – w(t-1) = – w R(w) Gradientenabstieg ( w (t) ) = w R ( w ) < 0

42 Stochastische Approximation Gesucht: Nullstelle einer stochast. Funktion f(x,w) = r(x,w) F(w) a|w-w*| + b w*w f (x, w ) Methode 2: Einfach f(x,w) verwendenRobbins, Monro 1951 Methode 1: Alle Ereignisse x abwarten und dann F(w) = f(x,w) x bilden w(t) = w( t-1 ) – (t) F(w( t-1 )) w(t) = w( t-1 ) – (t) f(w( t-1 ),x(t)) stochastische Approximation

43 Stochastisches Lernen Lernen mit Zielfunktion R(w) = r(w,x) x w(t) = w(t-1) - (t) w R ( w(t-1) ) wird ersetzt durch Lernen mit stochast. Zielfunktion r(w,x) w(t) = w(t-1) - (t) w r ( w(t-1),x(t) ) stochastisches Lernen

44 Voraussetzungen das klein Gedruckte... die Funktion F(w) := f(x,w) x ist zentriert, d.h. F(w*) = 0 F(w) ist ansteigend, d.h. F(w w*) > 0 F(w) ist beschränkt mit |F(w)| 0 f(x,w) hat endliche Varianz, d.h. 2 (w) = (F( w ) - f( x,w )) 2 x < (t) verschwindet, (t) (t) wird nicht zu schnell klein = (t) wird nicht zu groß Stochastische Approximation 2 < Dann ex. (w(t) – w*) 2 = 0 mittl. quadr. Konv. Robbins-Monro P( w(t) = w*) = 1 Blum

45 Stochastische Iteration: Konvergenz Beispiel Sei die Zufallsvariable x gegeben, geschätzt durch w. Abweichung bei der Schätzung ist R(w) = r(w,x) x = (w-x) 2 x mean squared error w (t) = w (t-1) - (t) w r(w (t-1),x (t) ) stoch. Gradient w (t) = w (t-1) - (t)(w (t-1) -x (t) ) Zeitabhängigkeit R(w) R(w*) bei w w* stoch. und erwarteter Verlauf?

46 Stochastische Iteration: Konvergenz Stochastische Iteration w( t ) = w( t-1 ) - (t) (w (t-1) -x (t) ) Behauptung Bei (t) := 1/ t ist immer w(t) = x x Beweis durch vollständige Induktion w(0) 0 Kap w( t=1 ) = 0 - (t)(0-x) = x = x x Induktionsverankerung Mit w(t-1) = x t-1 = Induktionsvoraussetzung gilt w(t) =... = x t Induktionsschritt q.e.d.

47 Konvergenzverlauf x = 1

48 Erwarteter Konvergenzverlauf Rechnung Anhang D.4 mittl. quadrat. Abweichung Erwartungswert aller Verläufe Abweichung durch Standardabweichung beschreibbar |w* - w(t)| = t = x / t

49 Konvergenzverlauf w* = 1, x = 0,288 Abweichung w*(t)

50 Probleme Stochastisches Lernen Beispiel Klassentrennung w i ( t ) = w i ( t-1 ) - (t) (w i (t-1) -x (t) ) Behauptung Trotz (t) := 1/ t ist der Klassenprototyp w i (t) x x Warum ?

51 Rüdiger Brause: Adaptive Systeme AS-2 WS 2013 Stochast. Klassifikation Lernen und Zielfunktion Lernen linearer Klassifikation Lernen in Multilayer-Netzen Backpropagation-Lernen Lineare Klassifikation Assoziativspeicher

52 Rüdiger Brause: Adaptive Systeme AS-2 WS Stochastische Musterklassifikation Grundsituation der Erkennung M 1 2 P( i )... P( X | i ) mit P(x) empfangen Muster x Quelle, Sender a priori 1 P( i | X ) 2... M Empfänger a posteriori Klassifikation k : P( k |x ) = max j P( j |x ) Bayes-Klassifikation Wie erhalten wir P( j |x ) ? Notation: Mustermenge = {x}, unterteilt in Klassen i k = " Klasse k liegt vor "

53 Rüdiger Brause: Adaptive Systeme AS-2 WS Stochastische Klassifikation P( j |x) = ? Bekannte Quellen Sei a-priori P( j ), P( x| j ), P( x ) bekannt und P( x, j ) = P( j |x )P( x ) = P( x| j )P( j ) so ist P( j |x ) = P( x| j )P( j ) / P( x ) mit P( x ) = j P( x| j )P( j ) Aufgabe ! Unbekannte Quellen A-posteriori P( j |x ) lernen ! Zielfunktion: Messung der Klassifikationsleistung ?

54 Klassifikationsleistung Diagnose-Situation (Diagnose, Realität) NameWahrscheinlichkeit (D(x) = | )Sensitivität TPP K = P(D(x) = | ) (D(x) = | )Ignoranz FPP I = P(D(x) = | ) (D(x) = | )Fehlalarm FNP A = P(D(x) = | ) (D(x) = | )Spezifität FPP L = P(D(x) = | ) P K + P I = 1 FP = FRR false rejection rate P A + P L = 1 FN = FAR false acceptance rate

55 Klassifikationsleistung Diagnose-Situation (confusion matrix) D(x) = Sensitivität P(D(x) = | ) true positive Fehlalarm P(D(x) = | ) false negative D(x) = Ignoranz P(D(x) = | ) false positive Spezifität P(D(x) = | ) true negative

56 ROC -Kurven von Diagnosesystemen Wechselseit. Abhängigkeit Sensitivität / Spezifität Beispiel med. Diagnose Leistung eines Diagnosesystems Receiver Operating Characteristic (ROC) P L = f(P K ) EER Sensitivität Spezifität Area Under Curve (AUC)

57 Diagnosegüte AUC area under curve Medizin: ab 80% interessant EER equal error rate bei Sensitivität = Spezifität Mittl. korrekte Diagnose (Sensitivität+Spezifität)/2 F-Maß 2*Sensitivität*Spezifität/(Sensitivität+Spezifität) …. ABER: NIEMALS nur die Sensitivität (Trefferquote)

58 ROC -Kurven von Diagnosesystemen Aufgabe: Ex. ein Diagnosesystem mit D(x) > c Klasse A liegt vor D(x) < c Klasse A liegt nicht vor Frage: Wie wird ROC und AUC davon gemessen? Antwort: Für festes c über alle x die Leistung (P k,P L ) messen, einen Punkt der Grafik einzeichnen c variieren, und jeweils Punkt zeichnen ROC in die Punkte einpassen, AUC davon berechnen

59 Rüdiger Brause: Adaptive Systeme AS-2 WS 2013 Stochast. Klassifikation Lernen und Zielfunktion Lernen linearer Klassifikation Lernen in Multilayer-Netzen Backpropagation-Lernen Lineare Klassifikation Assoziativspeicher

60 Das XOR-Problem Aufgabe Trennung zweier Klassen durch eine Gerade – wie ? x 1 x = { } = {(0,0), (1,1)} 1 = { } = {(1,0), (0,1)} Klassen nicht linear separierbar! x 1 x

61 Das XOR-Problem Lösung Trennung durch zwei Schichten x 1 x y = (x 1 x 2 ) negiertes XOR = (x 1 OR x 2 ) AND ( x 1 OR x 2 ) y 1 := x 1 OR 2 _ x y 2 := 1 _ x OR x 2 y XOR := y 1 AND y 2 w 1 = w = 1/3 w 2 = w = w 3 =- 1/3 s 1 =s 2 =0, s = 1/2 z.B. formale binäre Neuronen x 1 x S(z>s) = 1, S(z

62 Multilayer-Klassifikation Separierung von Klassen 1.Neuron 2.Neuron 3.Neuron

63 Approximationsnetze Interpolation anhand von Beispielen (Stützstellen) Fähigkeiten der Multilayer-Netzwerke Typ. NetzLinearkombinationen von Basisfunktionen S(.) Sigma-Funktion F: wobei { z | z(x) = w (1)T x+b } affine Funktionen n S ist Quetschfunktion

64 Satz Hornik, Stinchkombe, White 1989 Für die Funktionswerte jeder beliebigen Funktion f(x) : n von N Mustern x 1.. x N ex. eine Sigma-Funktion F, so dass für alle Muster x i mit i = 1..N gilt F(x i ) = f(x i )Gilt auch für Schicht {F i } Assoziativspeicher Fähigkeiten der Multilayer-Netzwerke Satz Jede beliebige, stetige Funktion f(x) in einem kompakten Intervall ("kompakte Teilmenge des n ") kann beliebig dicht (uniform dicht im Sinne der L s -Norm in der Menge C n aller stetigen Funktionen und p - dicht in der Menge der Borel meßbaren Funktionen) durch eine Sigma- Funktion F(x) approximiert werden Anmerkung: Gilt auch für S = stetig, begrenzt, nicht-konstant (RBF)

65 Fähigkeiten der Multilayer-Netzwerke Frage : Wieviel Schichten muss ein Netzwerk mindestens haben, um eine beliebige Funktion beliebig gut zu approximieren? ? Antworten: eine zwei drei unendlich viele

66 Fähigkeiten von Mehrschicht-Netzen nicht-linear linear Mehrschichten-Netze x 1 x 2 x n y 1 y 2 y n f 1 f 2 Eingabe z.B. DNA, Patienten- daten, Roboter- sensoren Ausgabe z.B. Struktur, Diagnose, Roboter- bewegung nEin 2-Schichtennetzwerk mit nicht-linearer Ausgabefunktion S(z) kann JEDE beliebige Funktion so genau wie gewünscht approximieren, wenn genügend Neuronen ex. Neuronenzahl gegeben. Lernalgorithmus=?

67 Rüdiger Brause: Adaptive Systeme AS-2 WS 2013 Stochast. Klassifikation Lernen und Zielfunktion Lernen linearer Klassifikation Lernen in Multilayer-Netzen Backpropagation-Lernen Lineare Klassifikation Assoziativspeicher

68 Backpropagation Netzarchitektur und Aktivität Eingabe hidden units Ausgabe x Gesamtaktivität

69 Backpropagation-Grundidee Schichtweise Verbesserung durch Rückführung des Fehlers Netzarchitektur und Lernen Eingabe 1.Schicht 2.Schicht Ausgabe x (1) y = x (2) y (2) (1) hidden units Ausgabe units L - y (2)

70 Backpropagation-Lernregel letzte Schicht Lernziel : R(w*) = min E(y(w) - L(x)) 2 min. mittl. quadr. Fehler w i ( t+1 ) = w i ( t ) - Gradienten-Lernregel w ij ( t+1 ) = w ij ( t ) - (y i (w ij )-L(x)) stoch. Approximation mit = Mit i := - (y i (w ij )-L(x)) S(z i ) ist w ij (x) = i x j Delta-Regel

71 Fehler-Backpropagation Beeinflussung voriger Schichten z i (1) R Delta-Regel für Schicht 1, unabh. von R

72 Online vs Offline-Lernen Beispiel Buchstabenerkennung Überwachtes Lernen Eingabe Gewichte On-line learning (Training)..., H,... Testmenge off-line learning Trainings- menge A, B, C, D, E, F,..., Z. Lernziel (Zielfunktion) Lernziel (Zielfunktion) Lehrer Neuronales System A, B, C, D, E, F,..., Z. W W H !H ! E ?E ? E Ergebnis Fehler ?

73 Anwendung BP Gegeben DECtalk Ausgabe Text Sprache der Fa. Digital Eq. (DEC) Aufwand 20 PJ für 95% Genauigkeit Beispiel NetTalk Sejnowsky, Rosenberg CPU-Stunden BP-Training für 98% Genauigkeit Adaptives Programm statt neu programmieren!

74 NetTalk: Kodierung Ausgabekodierung Binäre Kodierung der 26 Laute Lauffenster der Trainingsbuchstaben Eingabekodierung Binäre Kodierung der 29 Buchstaben 23 Laute +(cont,Wortgrenze, stop) 26 Buchstaben +(cont,Wortgrenze, stop)

75 Analyse der Neuronengewichte Visualisierung der GewichteHinton Diagramm neg. Gewichte pos. Gewichte Sinn = ? Gewichte von Neuron 1 Gewichte von Neuron 2

76 Analyse der Neuronengewichte Clusteranalyse w 2 w 1 P 1 P 2 P 3 P 4 P 5 P 6 P 7 P 8 a 1 a 3 a 2 d(x,Nachbar) < d N gleicher Cluster P 1 P 3 P 2 P 4 P 5 P 6 P 7 P 8 d 1 d 2 d 3 a 1 a 3 Maximaler Nachbarabstand Hierarchische Clusteranalyse Dendrogramm Sukzessives Zusammenfassung Reihenfolge durch Cluster- Abstandsmaß

77 Analyse der Neuronengewichte Clusteranalyse Clusterung der Muster im Eingaberaum (in vitro) Clusterung der Ausgabewerte bei äquidistanten Testmustern (in vivo) Funktionsgruppen von Neuronen

78 Analyse der Neuronengewichte Sensitivitätsanalyse Aufstellen der Abhängigkeit des Fehlers des Netzes von der Eingabe bzw. den Gewichten. Wichtigkeitsliste der Eingabevariablen System ? Aber: Fehler hängt ab von Signalgrösse Normierung d. Signale Grosse Gewichte auch bei random-Eingabe Abhängigkeit von Eingabevar. nicht erfasst

79 Verbesserungen des BP-Algorithmus Problem Das System kann in einem lokalen Optimum "stecken" bleiben Lösung Gewichte der hidden units als Eigenvektoren initialisieren Mehrere Durchgänge mit zufallsveränderten Gewichten Regelmässige Störung der Gewichte & Neulernen Mit kleiner Wahrscheinlichkeit auch gegen das Optimum verändern Sequentieller Netzaufbau, gesteuert durch Kriterium (Ausgabeentropie, Fehler,...)

80 Verbesserungen des BP-Algorithmus Problem Trotz guter Trainingsleistung zeigt der Test schlechte Ergebnisse f(x) x testsamples trainingsamples Überanpassung (overfitting) !

81 Verbesserungen des BP-Algorithmus Lösung:Stopped Training

82 Training und Testen Problem: Partition der Daten zufällige Einteilung der Aufteilung der Daten Datenmenge aller Patienten nach Patienten

83 Verbesserungen des BP-Algorithmus Problem w ij (x) = i x j = (..)S(z i ) x j Die Konvergenz ist relativ langsam, besonders bei mehreren Schichten Problem Ausgabefunktion Bei Wahl von S = Fermifunktion ist die Ableitung eine Glocken- Funktion mit S(- ) = 0 = S( ) und damit bei sehr großem oder kleinem x (x) = 0 Kein Lernen mehr möglich! S(z)

84 Verbesserungen des BP-Algorithmus Abhilfen für die Ausgabefunktion: Andere Lernfunktion wählen, z.B. Ergänzung durch Backpropagation Trägheitsmoment (t+1) = (t) + (1- ) (t-1) z.B. = 0.9 Quickprop: Addiere 0,1 zu S(z) = (1-S)S Ist die Veränderung zu klein, wird sie Null gesetzt Ergänzung durch einen Abklingterm und Schrittinterpolation w ij (t) = (t) R x (t) / w ij (t) w ij (t-1) + (t) w ij (t-1) Andere Ausgabefunktion wählen (z.B. Sinus)

85 Verbesserungen des BP-Algorithmus Problem Die Konvergenz ist relativ langsam, besonders bei mehreren Schichten Lösung Abhilfe bei Ausgabefunktion Wahl von (t) als Hauptdiagonal-Matrix Änderung von (t) bei Vorzeichen des Gradienten Lernen der Einzelschichten, falls möglich (z.B. zuerst EV bei hidden units verwenden und 2. Schicht lernen, dann 1. Schicht) Andere Zielfunktion wählen (Information statt erwart. quadr. Fehler MSE)

86 Wechsel der Zielfunktion Zielfunktion Information P kj = P( j |x k ) Lj (1-P( j |x k )) 1-Lj Wahrsch. für Klassifik. von Muster k in Klasse j bei Lehrerurteil L Wahrsch. bei M Entscheidng., Muster k richtig zu klassifizieren DEF R x := I(x k ) = log P k Zielfunktion Kap = log P( j |x k ) + (1-L j ) log (1-P( j |x k )) y j = P( j |xk) log y j + (1-L j ) log (1-y j ) = (2) = (y-L)

87 Wechsel der Zielfunktion Beispiel: Klassifikation von Phonemen MSE 68% ok Information 78% ok 1. Formantenfrequenz 2. Formantenfrequenz


Herunterladen ppt "Lernen und Klassifizieren AS2-2 Rüdiger Brause: Adaptive Systeme AS-2 WS 2013 Stochast. Klassifikation Lernen und Zielfunktion Lernen linearer Klassifikation."

Ähnliche Präsentationen


Google-Anzeigen