Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Adaptive lineare Transformationen AS-2 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011 - 2 - Lineare Schichten Sequenz linearer Schichten.

Ähnliche Präsentationen


Präsentation zum Thema: "Adaptive lineare Transformationen AS-2 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011 - 2 - Lineare Schichten Sequenz linearer Schichten."—  Präsentation transkript:

1

2 Adaptive lineare Transformationen AS-2

3 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Lineare Schichten Sequenz linearer Schichten y (1) = A x (1) y (2) = B x (2)... y (n) = Z x (n) y (n) = Z B Ax (1) y (n) = M x (1) ZBA x (1) y M Sequenz linearer Schichten = wie nur 1 Schicht !

4 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011 PCA-Netze und Weissen PCA-Transformation ICA-Transformation - 3 -

5 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Hebbsches Lernen w = w i (t) -w i (t-1) = i (t) y i x Iterative Hebb'sche Lernregel W = W (t) -W (t-1) = (t) yx T W = W(1) + W(2) + W(3) + … Problem: ex. kein Vergessen, w Unendliches Wachstum ??

6 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Hebbsches Lernen - Ergänzungen Lösung 1: lin. Term, Abklingen der Synapsen w (t) = w (t-1) + (t) yx Iterative Hebb'sche Lernregel w (t) = w (t-1) + (t) (yx - w (t-1) ) Abklingen des Gewichts -1 w (t) -w (t-1) = yx - w (t-1) Diff.gleichung mit = 1/ Erwartetes Ziel bei lin. System y = w T x C xx := xx T = 1 xy - 2 w = 1 xx T w - w = 1 xx T w - 2 w = 0 C xx w = w bei Fixpunkt w = w*Eigenvektor von C xx w* stabil?1-dim Beispiel: Nein! = 1 xy - 2 w n nicht-lin. Abklingterm n>1

7 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Hebbsches Lernen - Ergänzungen Lösung : Normierung der Gewichte w (t) = w (t-1) + (t) yx mit |w (t) | = 1 Wie? (t) = (t-1) + (t) yx w (t) = ____= (t-1) + (t) yx | | | | Wohin konvergiert w(t) ?

8 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Lernen: beschränkte Hebbsche Regel Konvergenzziel? w i (t) = w i (t-1) + i (t) y i x Hebb'sche Lernregel mit NB |w| = const. = w i (t-1) + i (t) Gradientenaufstieg Also: = xy = xx T w = Awbei y = x T w lin. Neuron Zielfunktion R(w) = ½ w T Aw mit |w| = const = 1 Extremwert von L(w,µ) = R(w) + µ·( |w| 2 – 1) Lagrangefunktion bei (w, ) = + 2w = Aw + 2w = 0 Aw = w Eigenwertgleichung mit := –2 w EV(A) mit EW = max

9 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Principal Component Analysis PCA Zerlegung in orthogonale Eigenvektoren = Basisvektoren Hauptkomponentenanalyse, principal component analysis, Karhunen-Loéve-Entwicklung, Hotelling-Transformation,... Eigenvektoren – Wozu? e 1 e 2 Merkmals- transformation auf Hauptrichtungen

10 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Principal Component Analysis PCA Transformation auf Unkorreliertheit Beispiel (x 1 - x 1 ) (x 2 - x 2 ) = 0Unkorrreliertheit von x 1,x 2 Rauschfrei korrelierte Daten x = (x 1,x 2 ) mit x 2 = ax 1 Rechnung: EV, EW = ?

11 Dekorrelation und Unabhängigkeit DEF dekorreliert: (y i - y i ) (y j - y j ) y i - y i y j - y j = 0 ij Satz: PCA dekorreliert Daten DEF PCA: y = w T x mit C xx w = w Eigenvektoren Mit PCA gilt y i =y i -y ̅ i, x= x-x ̅ y i y j = w i T x x T w j w i T x x T w j w i T C xx w j = w i T j w j = da ja w i T w j = gilt. Daten sind unabhängig Daten sind dekorreliert DEF unabhängig:P(x i,x j ) = P(x i )P(x j ) x i,x j Zufallsvariable y i y j = y i y j = 0 bei y i =0 ij Aber: umgekehrt gilt nicht: dekorreliert ist nicht unabhängig! Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS

12 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS R(W) = min (x- ) 2 least mean squared error (LMSE) Transformation mit minimalem MSE Allgemeine Situation. · · · l i n. T r a n s f o r m a t i o n W x x 1 x n X { y }.. 1 y m y Y m+1.. Y n Wann minimal ?

13 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Transformation mit minimalem MSE Was ist die beste Schätzung für die Konstanten c i ? min R(c i ) = ? Rechnung ! Anhang B R(W) = min (x- ) 2 least mean squared error (LMSE) Minimaler Rekonstruktionsfehler Bei welchen Basisvektoren w i ist der Fehler minimal ? min R(w i ) = ? Rechnung ! Anhang B y i = x T w i + x = + =

14 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Transformation mit minimalem MSE m Messungen f(x) x Modellierung als Gerade y = f(x) = y 0 + ax Beispiel: Ökonomie Konsum y = f(Einkommen x) = Konsumsockel + a Einkommen Problem: Ergebnis hängt vom Koord.system ab

15 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Transformation mit minimalem MSE Minimaler mittlerer Abstand zur Gerade (Hyperebene) c u x d Hyperebene mit g(x*) = 0 w = x* T u/|u| – c = x* T w – c Hessesche Normalform d = x T w – c = g(x) TLMSE = R(w,c) = d 2 Rechnung: Minimum des TLMSE ( Kap.3.3.1)

16 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011 PCA-Netze und Weissen PCA-Transformation ICA-Transformation

17 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS PCA Netze für geordnete Zerlegung Sanger-MethodeSanger 1988 Vollständige Zerlegung von {x} in n Eigenvektoren (Gram-Schmidt) {x} 0 = {x}, i=1 1. Suche die Richtung größter Varianz in {x} i-1. Dies ist e i. 2. Ziehe diese Richtung (Dimension) von {x} i-1 ab. Wir erhalten {x} i. 3. Wenn i

18 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS PCA Netze durch laterale Inhibition Asymmetrische NetzeRubner, Tavan 1990 y i = w i T x + Aktivität = (w i + ) T x =: w i = xy i Hebb-Lernen u ik = - y i y k Anti-Hebb-Lernen Anti-Hebb auch aus Prinzip kleinste gemeins. Information H(y k,y i )

19 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Whitening Filter Shannon : Whitening für alle Frequenzen, d.h. alle diskreten Signalbänder Übertragung auf parallele Signale y i : gleiche Varianz aller durch Transformation W. Anhebung zu geringer Amplituden: Wähle W so, dass = 1 bei i = j, sonst = 0; also yy T = I Absenkung der Amplituden:durch inverse Matrix W -1 Rauschen Kodierung Transmission Dekodierung Transformation W x x ~ inverse Transformation W -1

20 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Whitening Filter Anhebung bei parallelen Signalen Wenn für die Transformation W eine orthonormale Basis M -1 = M T gewählt wird, ist das Ziel des Lernens mit I = yy T = Wxx T W T = W xx T W T = WAW T auch W T I = W T (WAW T ) = AW T bzw.w k = Aw k Eigenvektoren w k von A mit = 1 Also: 1.Signal zentrieren und PCA durchführen. Wir erhalten orthonormale Eigenvektoren e i mit Eigenwerten i. 2.e i normieren: w i = e i / i 1/2 so dass | w i | 2 =1/ i. Es ergibt sich orthogonale Transformationsmatrix W mit Zeilenvektoren w i Sie erfüllt y i y i = w i T xx T w i = w i T Aw i = w i T w i i = 1

21 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Whitening Filter Absenkung (Rücktransformation) W -1 = ? Wenn B = ( 1 w 1,..., n w n ) gewählt wird, ist mit |w i | 2 = i -1 mit W B = = = I, Also ist W -1 = B mit den Spalten aus den Zeilen von W. Also: Rücktransformation 1.Aus der PCA haben wir e i, i mit |e i | 2 = 1 und so die Matrix W mit |w i | 2 = i Basis b i bilden aus W : b i = ( 1 w 1i, 2 w 2i,..., n w ni )

22 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Orthonormalisierende Netze Heuristische Methode Silva, Almeida 1991 Ziel: Projektion a ij := w i T w j eines Basisvektors w i auf einen anderen w j vermindern w i ( t ) = w i ( t-1 ) – ( t ) a ij w j ( t-1 ) = w i ( t-1 ) – ( t ) (w i T ( t-1 )w j ( t-1 )) w j ( t-1 ) w i (t) = w i (t-1) – (t) w i T (t-1) w j (t-1) ) w j (t-1) Alle Einflüsse y i y j w j (t-1) Ziel: orthogonal im Datenraum: a ij := y i y j = w W(t+1) = W(t) – C yy (t) W(t) + W(t) Matrixversion + (1- y i 2 ) w i (t) + (1- y i 2 ) w i (t) Normierung

23 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Orthonormalisierende Netze Konvergenz der Heuristischen Methode Silva, Almeida 1991 Beh: C yy I mit C yy = yy T = W xx T W T = WC xx W T Bew: Einsetzen der Matrixversion W(t+1) = W(t) - C yy (t) W(t) + W(t) C yy (t+1) = 2 C yy 3 -2 (1+ )C yy 2 +(1+ ) 2 C yy Darstellung im Eigenvektorraum C yy e i = e i i C yy E = E C yy = E E T ändert die Eigenvektoren nicht, sondern nur die Eigenwerte zu (t+1) = (1+ ) 2 + (1+ ) 2 Fixpunktgleichung Konvergenz 1 C yy Iq.e.d. Ex. keine Zielfunktion ! =1 (t+1) (t) Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS

24 Konvergenz von Fixpunkten | g´(w) | < 1 bzw. < 1 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS | g´(w) | > 1 Stabiler Fixpunkt Labiler Fixpunkt

25 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Orthonormalisierende Netze Symmetrisches, lateral inhib.Netz Brause, Rippl 1998 Vor: zentrierte Eingabe x Ziel: min Kreuzkorr., Autokorr. = 1 für Zielfunktion R(w) = ¼ i j y i y j 2 ¼ i ( y i 2 -1) 2 Gradientenabstieg w i (t) = w i (t-1) (t) x ( j u ij y j + y i ) u ij = - y i y j lateral inhibition Konvergenz der Transformation: lat. Inhib. u ij wird null Stoch.Version

26 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Ausblick: lineare und nichtlineare PCA Lineare Hauptachsentransformation Dynamische Hauptachsentransformation e 2 b 1 b 2 e 1 e 2 b 1 b 2 e 1 e 1 e 1 e 2 e 2

27 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011 PCA-Netze und Weissen PCA-Transformation ICA-Transformation

28 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Lineares ICA-Modell M s1s2 sns1s2 sn x 1 x 2 x n W y1y2 yny1y2 yn Quellenmix Entmischung Ziel:W M -1 y s mit p(y) = p(y 1,..,y n ) = p(y 1 )..p(y n ) unabhängige Kanäle Unabhängigkeit notwendig zur Quellentrennung. Yelling,Weinstein (1994): auch hinreichend!

29 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Lineare Koordinatentransformationen l PCA-Hauptkomponentenanalyse Richtung stärkster Varianz l ICA- Unabhängigkeitsanalyse statistische Unabhängigkeit Beispiel: 1 b 2 b, e 2 e 1 c 2 1 c c 1 := x-y, c 2 := y also c 1 = x 1 unabh. von c 2 = x 2 x = x 1 +x 2, y = x 2 mit x 1,x 2 zufällig uniform aus [-1,+1] M = ? M -1 =

30 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS ICA-Einschränkungen Quellenzahl = Mischzahl M muß regulär sein nur dann ex. M -1 Ausgabereihenfolge unbestimmt Reihenfolge in p(y 1 )..p(y n ) ist unwichtig bis auf Permutation P bestimmbar: M M P Unbekannte Skalierung i = 1 Beweis: Rechnung Kap Gaußsche Quellen lassen sich nicht trennen max 1 Gaußsche Quelle Beweis: Rechnung Kap.3.4

31 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS DEF Information I ~ n = ld(2 n ) = ld ( Zahl der möglichen Daten ) I ~ ld(1/P)[Bit] DEF I (X) := ln(1/P(x k )) = – ln(P(x k )) Information DEF H(X) := k P(x k ) I (x k ) = I (x k ) k Entropie H(X) := p(x) ln p(x) -1 dx differenzielle Entropie Frage: Wieviel Information hat eine 32-bit floating-point Zahl? DEF I (X;Y) = H(X) + H(Y) – H(X,Y) Transinformation mutual information

32 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Ziel: minimale Transinformation zwischen den Ausgaben y i x = InputKanäle, stoch. Variable y = Output Transinformation I(y 1 ;y 2 ) = H(y 1 ) + H(y 2 ) – H(y 1,y 2 ) minimal bei I(y 1 ;y 2 ) = 0 bzw. maximaler Entropie H(y 1,y 2 ) = H(y 1 ) + H(y 2 ) bzw. p(y 1,y 2 ) = p(y 1 ) p(y 2 ) stochastische Unabhängigkeit der Variablen y i ICA - Algorithmen 1a - W(t+1) = W(t) – I(y 1 ;y 2 ;..;y n ) Gradientenabstieg (Amari, Young, Cichocki 1996) Entwicklung von p(y 1,y 2,..,y n ) in I(y 1 ;y 2 ;..;y n ) nach höheren Momenten W(t+1) = W(t) – (1-f(y)y T )W(t) mit f i (y i ) = Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS

33 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Transinformation I(X;Y) = H(Y) – H(Y|X) aus Def. H(Y|X) ist konstant im determinist. System Maximimierung von I(X;Y) durch Maximierung von H(Y) R(w) := H(Y) = H(X) + p(x) ln |det J|dx mit J = Nicht-lin. Ausgabe y, z.B. y = tanh(z) ICA - Algorithmen 1b - Ziel : maximale Transinformation (Bell, Sejnowski 1995) zwischen Eingabe und Ausgabe Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS

34 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Informationstransformation Transformation kontinuierlicher Zufallsvariabler H(Y) = H(X) + ln |det(W)| = – p(x) ln p(x) dx + p(x) ln |det J| dx x 1 x n y 1 y n Trans - formation J H(Y) = – p(y) ln p(y) dy dy = |det J| dx p(y(x)) = p(x) |det J| -1 H(Y) = ? H(Y) = H(Y(X)) y(x) = Wx J = W = – (p(x) |det J| -1 ) ln ( p(x) |det J| -1 ) |det J| dx Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS

35 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Gradientenregel W( t+1 ) = W( t ) + ( – 2yx T ) Rechnung: 1-dim Fall ( Kap.3.4.1) Natürl.Gradient Amari 1985 = W = (t) W T W = ( I – 2yz T ) W ICA - Algorithmen 1b - Ziel : maximale Transinformation (Bell, Sejnowski 1995) zwischen Eingabe und Ausgabe Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS

36 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Momente einer Zufallsvariablen x : i = x i, z.B. 1 = x Mittelwert Zentrale Momente einer Zufallsvariablen x: m k = (x- 1 ) k, z.B. m 2 = (x- 1 ) 2 Varianz Wölbungsmaß Kurtosis: kurt(x) = [ (x- 1 ) 4 -3m 2 2 ]/m 2 2 Statist. Momente und Kurtosis Supergaussian: Kurtosis > 0 Gaussian: Kurtosis = 0 Subgaussian: Kurtosis < 0

37 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS ICA-Algorithmen: Vorverarbeitungsfolge Zentrieren Mittelwertbildung, z.B. iterativ durch w 0 (t+1) = w 0 (t) - (w 0 -x), =1/t Weißen PCA durchführen: w i Eigenvektoren von C = xx T mit |w i |=1 und Eigenwerten i Gewichtsvektoren w i normieren zu w i / i 1/2. Dies führt zu y 2 = w i T xx T w i = w i T i w i = 1 Entmischen ICA Algorithmen, z.B. minimale Transinformation, maximale Kurtosis etc. Speziell: dekorrelierte x benötigen nur eine orthogonale Matrix W (Vereinfachung) M s1s2 sns1s2 sn x 1 x 2 x n x- x y1y2 yny1y2 yn B Quellenmix zentrieren weißen entmischen W x (x x

38 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Ziel: extremale Kurtosis (Delfosse, Loubaton 1995) Extrema bei s j = unabh. Komp, und z j = +/-1 kurt (y) = kurt (w T v) = kurt(w T Ms) = kurt (z T s) = ICA – Algorithmen 2 M s1s2 sns1s2 sn v 1 v 2 v n y1y2 yny1y2 yn Quellenmix zentrieren weißen entmischen W v i (v i v i Matrix Z

39 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS ICA – Algorithmen 2 Lernalgorithmus für einzelnes Neuron (Hyvarinen, Oja 1996) w (t+1) = (w T v) 3 v – 3 w Fixpunktalgorithmus mit |w| = 1 Ziel: extremale Kurtosis bei y = w T v R(w) = (w T v) 4 – 3 (w T v) 2 2 = min w w (t+1) = w (t) + grad R(w) = w (t) + 4 ( (w T v) 3 v – 3|w| 2 w ) Bei |w| = 1 ist die Richtung gegeben durch w (t+1) = ( (w T v) 3 v – w )

40 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS ICA – Algorithmen 2 Sequentielle Extraktion aller Komponenten Gegeben: Trainingsmenge {v(0)} w 1 (t+1) = (w 1 T v) 3 v – 3 w 1 mit |w 1 | = 1 Konvergenz zum 1. ICA-Vektor. Dann neue Trainingsmenge durch v(1) = v(0) – w 1 y 1 w 2 (t+1) = (w 2 T v) 3 v – 3 w 2 mit |w 2 | = 1 Konvergenz zum 2. ICA-Vektor, usw. Schnellere Konvergenz: Orthogonalisierung w i (t+1) = w i (t) - (w i w j ) w j j < i

41 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS ICA-Anwendung: Audioanalyse Mix1 Mix2 Mix3 Mix4 speaker singer violin orchestra Mischung entmischte Quellen


Herunterladen ppt "Adaptive lineare Transformationen AS-2 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011 - 2 - Lineare Schichten Sequenz linearer Schichten."

Ähnliche Präsentationen


Google-Anzeigen