Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Adaptive lineare Transformationen AS-1 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2009 - 2 - Lineare Schichten Sequenz linearer Schichten.

Ähnliche Präsentationen


Präsentation zum Thema: "Adaptive lineare Transformationen AS-1 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2009 - 2 - Lineare Schichten Sequenz linearer Schichten."—  Präsentation transkript:

1

2 Adaptive lineare Transformationen AS-1

3 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Lineare Schichten Sequenz linearer Schichten y (1) = A x (1) y (2) = B x (2)... y (n) = Z x (n) y (n) = Z B Ax (1) y (n) = M x (1) ZBA x (1) y M Sequenz linearer Schichten = wie nur 1 Schicht !

4 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Hebbsches Lernen w = w i (t) -w i (t-1) = i (t) y i x Iterative Hebb'sche Lernregel W = W (t) -W (t-1) = (t) yx T W = W(1) + W(2) + W(3) + … Problem: ex. kein Vergessen, w Unendliches Wachstum ??

5 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Hebbsches Lernen - Ergänzungen Lösung : Normierung der Gewichte w (t) = w (t-1) + (t) yx mit |w (t) | = 1 Wie? (t) = (t-1) + (t) yx w (t) = ____= (t-1) + (t) yx | | | | Wohin konvergiert w(t) ? Rechnung Eigenvektoren der Autokorrelationsmatrix C xx := xx T !

6 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2009 PCA-Netze PCA-Transformation Transform Coding ICA-Transformation Weissen - 5 -

7 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Principal Component Analysis PCA Zerlegung in orthogonale Eigenvektoren = Basisvektoren Hauptkomponentenanalyse, principal component analysis, Karhunen-Loéve-Entwicklung, Hotelling-Transformation,... Eigenvektoren – Wozu? e 1 e 2 Merkmals- transformation auf Hauptrichtungen

8 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Principal Component Analysis PCA Transformation auf Unkorreliertheit Beispiel (x 1 - x 1 ) (x 2 - x 2 ) = 0Unkorrreliertheit von x 1,x 2 Rauschfrei korrelierte Daten x = (x 1,x 2 ) mit x 2 = ax 1 Rechnung: EV, EW = ?

9 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Transformation mit minimalem MSE Beispiel: Sprachkodierung Zeit x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 x 10 Filter 1 Filter 6 Filter 7 Filter 8 Filter 9 Filter 10 Filter 2 Filter 3 Filter 4 Filter 5 x(t) Fouriertranformation Signalanteil in Frequenzbereichen Merkmalsvektor

10 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Transformation mit minimalem MSE Beispiel: Sprachkodierung Transformation (Rotation) des Koordinatensystems auf Hauptachsen Vernachlässigung der Anteile des 2. Kanals: Ersatz des zweiten Kanals durch ersten e2e2 e1e1 x1x1 x2x2

11 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS R(W) = min (x- ) 2 least mean squared error (LMSE) Transformation mit minimalem MSE Allgemeine Situation. · · · l i n. T r a n s f o r m a t i o n W x x 1 x n X { y }.. 1 y m y Y m+1.. Y n Wann minimal ?

12 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Transformation mit minimalem MSE Was ist die beste Schätzung für die Konstanten c i ? min R(c i ) = ? Rechnung ! R(W) = min (x- ) 2 least mean squared error (LMSE) Minimaler Rekonstruktionsfehler Bei welchen Basisvektoren w i ist der Fehler minimal ? min R(w i ) = ? Rechnung ! y i = x T w i + x = + =

13 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2009 PCA-Netze PCA-Transformation Transform Coding ICA-Transformation Weissen

14 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Transform coding – Wozu? Verlustfreie Kodierung : Max 1:2 (Zip). Unnötig bei Telekommunikation (z.B. Bildtelefon) Satellitenübertragung (z.B. Wettersatelliten etc.) Bilddatenbanken (z.B. Umweltdaten, Medizindaten, Industrieteile, Teleshopping etc.) Digitale Musik (MP3) Hochauflösendes Fernsehen (HDTV) Allgemein: Multi-Media Daten (MPEG 7)

15 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Konzept Transform Coding Kodierung und Dekodierung Kodierung Übertragung, Dekodierung Speicherung · · · · · · · · · · · · · · · · · · lin. Transformation Vektor- codebook lin. Transformation x n x 1 y n y m y 1 y m+1 y m y 1 ^ x n ^ x 1 quantisierung ookup · · · Klassenprototypen

16 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Aufteilung in Unterblöcke Kodierung und Dekodierung x n · · · Y y 1 y m JPEG, MPEG Blockgröße: 8x8 Pixel SW 16x16 Pixel Farbe

17 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Transform Coding Kodierung: 256x256 Pixel, 8 Bit Grauwert, 32x32 Unterbilder, je 8x8=64 Pixel, 8 Neuronen. Kompression = ? e 1 e 2 e 3 e 4 e 5 e 6 e 7 e 8 Kodierung in 0,36 Bits/Pixel statt 8 = Kompression mit Faktor 22 und Dekodierung:

18 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Eigenschaften natürlicher Bilder Fehler beim Vernachlässigen höh. Komponenten n = = Komponenten C xx (x-x`) = Bildmodellierung durch Pixelkorrelationen

19 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Eigenvektoren und Eigenfunktionen Komponentenindex Komponente w 1 w 2 w 3 w 4 w 5 w 6 w 7 w 8 Basisfunktion (i) w i = (i) Min. Fehler Eigenvektoren. Und im kontin. Fall? Eigenvektor w = diskretisierte Eigenfunktion (w)

20 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS kont. Eigenwertgleichung Aw = w C(x 1,x 2,x 1 ',x 2 ') (x 1 ',x 2 ') dx 1 ' dx 2 ' = 12 (x 1,x 2 ) C(x 1,x 2,x 1 ',x 2 ') = C(x 1,x 1 ') C(x 2,x 2 ') (x 1,x 2 ) = (x 1 ) (x 2 ), 12 = 1 2 ``(x) + (2 – 2 ) (x) = 0 Separierbare Korrelationen Zwei 1-dimensionale Differentialgleichungen Separierbare Basisfunktionen

21 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Transform Coding Lösungen: Eigenfunktionen mit Eigenfrequenzen b i N/2 i (x) = a cos ( b i (x-N/2) ) mit i = wobei b i tan(b i N/2) =1 N=8,α=0,125, ß=0, (x) 12 (x) e 1 e 2 e 3 e 4 e 5 e 6 e 7 e 8

22 Beispiel: Bildkodierung Eigenfunktion coding vs. Kosinustransformation (JPEG) Eigenfunktion 1-dim Eigenfunktionen bei abfall. Korrelation Kosinus i (x) = a cos ( b i (x-N/2) ) EF für Parameter ~ mittl. Bild identisch mit cos bildunabh. Kodierung Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2009

23 PCA-Netze PCA-Transformation Transform Coding ICA-Transformation Weissen

24 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS EINE Lernregel für Hebb-Lernen und Gewichtsnormierung Hebb-Regel w (t) = w (t-1) + (t) yx Normierung w i (t) Einsetzen 1. in 2. w (t-1) + (t) yx [ i (w i (t-1)+ x i y) 2 ] 1/2 und f( ) in einer Taylorreihe nach entwickeln. Oja-Lernregel Terme mit 2 vernachlässigen ergibt w (t) = w (t-1) + (t) y [x (t) w (t-1) y] Oja Lernregel x neu

25 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS PCA Netze für den Unterraum Oja-Netz x 1 x n · · · Y 1 y m · · · x y w(t) = w(t-1) + (t) y [x(t) w(t-1)y] Oja Lernregel w i (t) = w i (t-1) + (t) y i [x(t) x ] x = w i (t-1) y i Ansatz: Zielfunktion R(w) = (x- ) 2 minimieren Konvergenzziel: Unterraum der EV mit größtem EW

26 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS PCA Netze für geordnete Zerlegung Sanger-MethodeSanger 1988 Vollständige Zerlegung von {x} in n Eigenvektoren (Gram-Schmidt) {x} 0 = {x}, i=1 1. Suche die Richtung größter Varianz in {x} i-1. Dies ist e i. 2. Ziehe diese Richtung (Dimension) von {x} i-1 ab. Wir erhalten {x} i. 3. Wenn i

27 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS PCA Netze für geordnete Zerlegung Sanger-Methode: stochastischer Algorithmus Lernen: w i (t) = w i ( t–1 ) + ( t ) y i x i "Generalisierte" Hebb-Regel Musterreduktion Stufe 1 x 2 := x 1 - w 1 ( t–1 ) y 1 x 2 x 1 !! Stufe k x k+1 := x k + aw k ( t–1 ) y k und x 1 := x, a := –1, k = 1..i–1 Lernen Stufe k w k+1 (t) = w k ( t–1 ) + ( t ) y k (x k +a ) a = –1 max EW, a = +1 min EW

28 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2009 PCA-Netze PCA-Transformation Transform Coding ICA-Transformation Weissen

29 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Kodierung: Verstärkung zu geringer Amplituden Dekodierung: Absenkung der Amplituden Rauschen Whitening Filter Problem Störung von Signalen durch Rauschen Lösung Frequenz f spektrale Energie |Y| 2 Rauschen Frequenz f spektrale Energie |Y| 2 Störung

30 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Whitening Filter Shannon : Whitening für alle Frequenzen, d.h. alle diskreten Signalbänder Übertragung auf parallele Signale y i : gleiche Varianz aller durch Transformation W. Anhebung zu geringer Amplituden: Wähle W so, daß = 1 bei i = j, und =0 sonst; also yy T = I Absenkung der Amplituden:durch inverse Matrix W -1 Rauschen Kodierung Transmission Dekodierung Transformation W x x ~ inverse Transformation W -1

31 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Beispiel: Bildentstörung ungestörtes Bild gestörtes Bild Bild mit Rausch- unterdrückung

32 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Beispiel: Bildentstörung Bildkodierung Zerteilen in Blöcke, jeder Block = Mustervektor

33 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Rauschunterdrückung Problem: Vollständige Rekonstruktion ungestört gering gestört stark gestört

34 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2009 PCA-Netze PCA-Transformation Transform Coding ICA-Transformation Weissen

35 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Einleitung Lineare Mischung unabhängiger Quellen Mikro 1 Mikro 2 Sprecher 1 Sprecher 2

36 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Lineares ICA-Modell M s1s2 sns1s2 sn x 1 x 2 x n W y1y2 yny1y2 yn Quellenmix Entmischung Ziel:W M -1 y s mit p(y) = p(y 1,..,y n ) = p(y 1 )..p(y n ) unabhängige Kanäle Unabhängigkeit notwendig zur Quellentrennung. Yelling,Weinstein (1994): auch hinreichend!

37 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS ICA Anwendung: Audioanalyse 2 Sprecher mixed sources demixed sources Coctail-Party-Effekt

38 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS ICA-Einschränkungen Quellenzahl = Mischzahl M muß regulär sein nur dann ex. M -1 Ausgabereihenfolge unbestimmt Reihenfolge in p(y 1 )..p(y n ) ist unwichtig bis auf Permutation P bestimmbar: M M P Unbekannte Skalierung i = 1 2 Gaußsche Quellen lassen sich nicht trennen max 1 Gaußsche Quelle

39 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS DEF Information I ~ n = ld(2 n ) = ld ( Zahl der möglichen Daten ) I ~ ld(1/P)[Bit] DEF I (X) := ln(1/P(x k )) = – ln(P(x k )) Information DEF H(X) := k P(x k )I(x k ) = I(x k ) k Entropie H(X) := p(x) ln p(x) -1 dx differenzielle Entropie Frage: Wieviel Information hat eine 32-bit floating-point Zahl?

40 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS DEF Transinformation DEFH(X,Y) = H(X) + H(Y) – I (X;Y) Verbundentropie DEF I (X;Y) = H(X) + H(Y) – H(X,Y) Transinformation D(p(X)||q(X)) = H sub (X) – H obj (X) allg. Informationsdivergenz = = D( p(X,Y) || q(X,Y) ) = ? Transformation H(X) H(Y) x 1 y 1 Transinformation Rauschen Redundanz Rauschen Redundanz n x n y

41 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Ziel: minimale Transinformation zwischen den Ausgaben y i x = Kanäle, stoch. Variablen Transinformation I(x 1 ;x 2 ) = H(x 1 ) + H(x 2 ) – H(x 1,x 2 ) minimal bei I(x 1 ;x 2 ) = 0 bzw. maximaler Entropie H(x 1,x 2 ) = H(x 1 ) + H(x 2 ) bzw. p(x 1,x 2 ) = p(x 1 ) p(x 2 ) stochastische Unabhängigkeit der Variablen ICA - Algorithmen 1 - W(t+1) = W(t) – I(y 1 ;y 2 ;..;y n ) Gradientenabstieg (Amari, Young, Cichocki 1996) Entwicklung von p(y 1,y 2,..,y n ) in I(y 1 ;y 2 ;..;y n ) nach höheren Momenten W(t+1) = W(t) – (1-f(y)y T )W(t) mit f i (y i ) =

42 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Momente einer Zufallsvariablen x : i = x i, z.B. 1 = x Mittelwert Zentrale Momente einer Zufallsvariablen x: m k = (x- 1 ) k, z.B. m 2 = (x- 1 ) 2 Varianz Wölbungsmaß Kurtosis: kurt(x) = [ (x- 1 ) 4 -3m 2 2 ]/m 2 2 Statist. Momente und Kurtosis Supergaussian: Kurtosis > 0 Gaussian: Kurtosis = 0 Subgaussian: Kurtosis < 0

43 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS ICA-Algorithmen: Vorverarbeitungsfolge Zentrieren Mittelwertbildung, z.B. iterativ durch w 0 (t+1) = w 0 (t) - (w 0 -x), =1/t Weißen PCA durchführen: w i Eigenvektoren von C = xx T mit |w i |=1 und Eigenwerten i Gewichtsvektoren w i normieren zu w i / i 1/2. Dies führt zu y 2 = w i T xx T w i = w i T i w i = 1 Entmischen ICA Algorithmen, z.B. minimale Transinformation, maximale Kurtosis etc. Speziell: dekorrelierte x benötigen nur eine orthogonale Matrix W (Vereinfachung) M s1s2 sns1s2 sn x 1 x 2 x n x- x y1y2 yny1y2 yn B Quellenmix zentrieren weißen entmischen W x (x x

44 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Ziel: extremale Kurtosis (Delfosse, Loubaton 1995) Extrema bei s j = unabh. Komp, und z j = +/-1 kurt (y) = kurt (w T v) = kurt(w T Ms) = kurt (z T s) = ICA – Algorithmen 2 M s1s2 sns1s2 sn v 1 v 2 v n y1y2 yny1y2 yn Quellenmix zentrieren weißen entmischen W v i (v i v i Matrix Z

45 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS ICA – Algorithmen 2 Sequentielle Extraktion aller Komponenten Gegeben: Trainingsmenge {v(0)} Fixpunktalgorithmus w 1 (t+1) = (w 1 T v) 3 v – 3 w 1 mit |w 1 | = 1 Konvergenz zum 1. ICA-Vektor. (Hyvarinen, Oja 1996) Dann neue Trainingsmenge durch v(1) = v(0) – w 1 y 1 w 2 (t+1) = (w 2 T v) 3 v – 3 w 2 mit |w 2 | = 1 Konvergenz zum 2. ICA-Vektor, usw. Schnellere Konvergenz: Orthogonalisierung w i (t+1) = w i (t) - (w i w j ) w j j < i

46 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS ICA-Anwendungen : Bildprimitive Zerteilung von Naturbildern in 12x12 Unterbilder = 144 Kanäle = 1 Sample Unabhängige KomponentenAlternative Analyseverfahren Bell, Sejnowski (Vision Research 1996)

47 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS ICA Anwendung: Bildentmischung 4 Bilder, sequentiell gerastert = 4 Quellen (Hyvarinen, Oja 1996) 4 Bilder 4 Kanäle 4 Mischbilder 4x4 Misch- matrix A Automatische Entmischung ?

48 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS ICA Anwendung: Bildentmischung 4 Bilder, sequentiell gerastert = 4 Quellen (Hyvärinen, Oja 1996) Mischbilderentmischte Bilder

49 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS ICA-EEG-Filterung Korrigierte EEG-Aufnahmen ohne 5 ICA-Muskelaktivitäten, Mischung

50 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS ICA-EEG-Analyse Entmischte EEG-Aufnahmen: unabhängige Zentren, z.B. Muskelaktivität Augenbewegungen R-L Muskelaktivität 1 Augenbewegungen oben-unten Muskeln 2 Muskeln 3 Jung, Humphries, Lee, Makeig, McKeown, Iragui, Sejnowski 1998


Herunterladen ppt "Adaptive lineare Transformationen AS-1 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2009 - 2 - Lineare Schichten Sequenz linearer Schichten."

Ähnliche Präsentationen


Google-Anzeigen