Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Adaptive lineare Transformationen AS1-3 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013 - 2 - Lineare Schichten Sequenz linearer Schichten.

Ähnliche Präsentationen


Präsentation zum Thema: "Adaptive lineare Transformationen AS1-3 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013 - 2 - Lineare Schichten Sequenz linearer Schichten."—  Präsentation transkript:

1

2 Adaptive lineare Transformationen AS1-3

3 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Lineare Schichten Sequenz linearer Schichten y (1) = A x (1) y (2) = B x (2)... y (n) = Z x (n) y (n) = Z B Ax (1) y (n) = M x (1) ZBA x (1) y M Sequenz linearer Schichten = wie nur 1 Schicht !

4 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Hebbsches Lernen w = w i (t) - w i (t-1) = i (t) y i x Iterative Hebb'sche Lernregel W = W (t) -W (t-1) = (t) yx T W = W (1) + W (2) + W (3) + … Problem: nur anwachsend, ex. kein Vergessen, w Unendliches Wachstum ??

5 Lösung : Normierung der Gewichte w (t) = w (t-1) + (t) yx mit |w (t) | = 1 Wie? (t) = w (t-1) + (t) yx w (t) = ____= w (t-1) + (t) yx | | | | Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Hebbsches Lernen - Ergänzungen Wohin konvergiert w(t) ? Rechnung Eigenvektoren der Autokorrelationsmatrix C xx := xx T !

6 Autokorrelation Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS

7 Kovarianz Kovarianz zwischen zwei Variablen x, y C xy = = Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS

8 FRAGE Was ist der Unterschied zwischen Korrelation (x,y) und Kovarianz (x,y) ? Und wann sind sie gleich? Antwort Kovarianz (x,y) = Korrelation (x,y) = Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS

9 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013 PCA-Netze PCA-Transformation Transform Coding ICA-Transformation Weissen - 8 -

10 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Principal Component Analysis PCA Zerlegung in orthogonale Eigenvektoren = Basisvektoren Hauptkomponentenanalyse, principal component analysis, Karhunen-Loéve-Entwicklung, Hotelling-Transformation,... Eigenvektoren – Wozu? e 1 e 2 Merkmals- transformation auf Hauptrichtungen

11 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Principal Component Analysis PCA Transformation auf Unkorreliertheit Beispiel (x 1 - x 1 ) (x 2 - x 2 ) = 0Unkorrreliertheit von x 1,x 2 Rauschfrei korrelierte Daten x = (x 1,x 2 ) mit x 2 = ax 1 Rechnung: EV, EW = ?

12 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Transformation mit minimalem MSE Beispiel: Sprachkodierung Zeit x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 x 10 Filter 1 Filter 6 Filter 7 Filter 8 Filter 9 Filter 10 Filter 2 Filter 3 Filter 4 Filter 5 x(t) Fouriertranformation Signalanteil in Frequenzbereichen Merkmalsvektor

13 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Transformation mit minimalem MSE Beispiel: Sprachkodierung Transformation (Rotation) des Koordinatensystems auf Hauptachsen Vernachlässigung der Anteile des 2. Kanals: Ersatz des zweiten Kanals durch ersten e2e2 e1e1 x1x1 x2x2

14 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS R(W) = min (x- ) 2 least mean squared error (LMSE) Transformation mit minimalem MSE Allgemeine Situation. · · · l i n. T r a n s f o r m a t i o n W x x 1 x n X { y }.. 1 y m y Y m+1.. Y n Wann minimal ?

15 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Transformation mit minimalem MSE Was ist die beste Schätzung für die Konstanten c i ? min R(c i ) = ? Rechnung ! R(W) = min (x- ) 2 least mean squared error (LMSE) Minimaler Rekonstruktionsfehler Bei welchen Basisvektoren w i ist der Fehler minimal ? min R(w i ) = ? Rechnung ! y i = x T w i + x = + =

16 FRAGE Angenommen, {x} bildet einen Hyperelipsoid. In welche Richtung gehen die beiden Eigenvektoren? Wie groß sind die Eigenwerte dazu? Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Angenommen, {x} bildet eine Hyperkugel mit 2 = 1. In welche Richtung gehen die Eigenvektoren? Wie groß sind die Eigenwerte dazu?

17 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013 PCA-Netze PCA-Transformation Transform Coding ICA-Transformation Weissen

18 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Transform coding – Wozu? Verlustfreie Kodierung : Max 1:2 (Zip). Unnötig bei Telekommunikation (z.B. Bildtelefon) Satellitenübertragung (z.B. Wettersatelliten etc.) Bilddatenbanken (z.B. Umweltdaten, Medizindaten, Industrieteile, Teleshopping etc.) Digitale Musik (MP3) Hochauflösendes Fernsehen (HDTV) Allgemein: Multi-Media Daten (MPEG 7)

19 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Konzept Transform Coding Kodierung und Dekodierung Anhang C Kodierung Übertragung, Dekodierung Speicherung · · · · · · · · · · · · · · · · · · lin. Transformation Vektor- codebook lin. Transformation x n x 1 y n y m y 1 y m+1 y m y 1 ^ x n ^ x 1 quantisierung ookup · · · Klassenprototypen

20 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Aufteilung in Unterblöcke Kodierung und Dekodierung x n · · · Y y 1 y m JPEG, MPEG Blockgröße: 8x8 Pixel SW 16x16 Pixel Farbe Schicht

21 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Transform Coding Kodierung: 256x256 Pixel, 8 Bit Grauwert, 32x32 Unterbilder, je 8x8=64 Pixel, 8 Neuronen. Kompression = ? e 1 e 2 e 3 e 4 e 5 e 6 e 7 e 8 Kodierung in 0,36 Bits/Pixel statt 8 = Kompression mit Faktor 22 und Dekodierung:

22 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Eigenschaften natürlicher Bilder Fehler beim Vernachlässigen höh. Komponenten n = = Komponenten C xx (x-x`) = Bildmodellierung durch Pixelkorrelationen

23 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Eigenvektoren und Eigenfunktionen Komponentenindex i Komponente w 1 w 2 w 3 w 4 w 5 w 6 w 7 w 8 Basisfunktion (i) w i = w(i) = (i) Min. Fehler Eigenvektoren. Und im kontin. Fall? Eigenvektor w = diskretisierte Eigenfunktion (w)

24 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS kont. Eigenwertgleichung Aw = 12 w A = (x 1 (i) x 2 (j) ) der Bilder w(x 1,x 2 ) C(x 1,x 2,x 1 ',x 2 ') (x 1 ',x 2 ') dx 1 ' dx 2 ' = 12 (x 1,x 2 ) C(x 1,x 2,x 1 ',x 2 ') = C(x 1,x 1 ') C(x 2,x 2 ') (x 1,x 2 ) = (x 1 ) (x 2 ), 12 = 1 2 ``(x) + (2 – 2 ) (x) = 0 Separierbare Korrelationen Zwei 1-dimensionale Differentialgleichungen Separierbare Basisfunktionen

25 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Transform Coding Lösungen: Eigenfunktionen mit Eigenfrequenzen b i N/2 i (x) = a cos ( b i (x-N/2) ) mit i = wobei b i tan(b i N/2) =1 N=8,α=0,125, ß=0, (x) 12 (x) e 1 e 2 e 3 e 4 e 5 e 6 e 7 e 8

26 Beispiel: Bildkodierung Eigenfunktion coding vs. Kosinustransformation (JPEG) Eigenfunktion 1-dim Eigenfunktionen bei abfall. Korrelation Kosinus i (x) = a cos ( b i (x-N/2) ) EF für Parameter ~ mittl. Bild identisch mit cos bildunabh. Kodierung Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013

27 PCA-Netze PCA-Transformation Transform Coding ICA-Transformation Weissen

28 EINE Lernregel für Hebb-Lernen und Gewichtsnormierung 1. Hebb-Regel w (t) = w (t-1) + (t) yx 2. Normierung w i (t) Einsetzen 1. in 2. w (t-1) + (t) yx [ i (w i (t-1)+ x i y) 2 ] 1/2 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Oja-Lernregel Terme mit 2 vernachlässigen ergibt w (t) = w (t-1) + (t) y [x (t) w (t-1) y] Oja Lernregel x neu und f( ) in einer Taylorreihe nach entwickeln.

29 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS PCA Netze für den Unterraum Oja-Netz x 1 x n · · · Y 1 y m · · · x y x = w i (t-1) y i Ansatz: Zielfunktion R(w) = (x- ) 2 minimieren bei x = 0 Konvergenzziel: Unterraum der EV mit größtem EW

30 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS PCA Netze für geordnete Zerlegung Sanger-MethodeSanger 1988 Vollständige Zerlegung von {x} in n Eigenvektoren {x} 1 = {x}, i=1 wobei x = 0 zentriert 1. Suche die Richtung größter Varianz in {x} i, etwa mit der Hebb- Lernregel und |w i | =1. Dies ist w i e i. 2. Ziehe alle Anteile in der Richtung w i von {x} i ab. Wir erhalten {x} i+1. x i+1 := x i – y i w i 3. Wenn i

31 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS PCA Netze für geordnete Zerlegung Sanger-Methode: stochastischer Algorithmus Lernen: w i (t) = w i ( t–1 ) + ( t ) y i x i "Generalisierte" Hebb-Regel Musterreduktion Stufe 1 x 2 := x 1 - w 1 ( t–1 ) y 1 x 2 w 1 !! Stufe k x k+1 := x k + aw k ( t–1 ) y k und x 1 := x, a := –1, k = 1..i–1 Lernen Stufe k w k+1 (t) = w k ( t–1 ) + ( t ) y k (x k +a ) a = –1 max EW, a = +1 min EW

32 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013 PCA-Netze PCA-Transformation Transform Coding ICA-Transformation Weissen

33 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Kodierung: Verstärkung zu geringer Amplituden Dekodierung: Absenkung der Amplituden Rauschen Whitening Filter Problem Störung von Signalen durch Rauschen Lösung Frequenz f spektrale Energie |Y| 2 Rauschen Frequenz f spektrale Energie |Y| 2 Störung

34 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Whitening Filter Shannon : Whitening für alle Frequenzen, d.h. alle diskreten Signalbänder Übertragung auf parallele Signale y i : gleiche Varianz aller durch Transformation W. Anhebung zu geringer Amplituden: Wähle W so, daß = 1 bei i = j, und =0 sonst; also yy T = I Absenkung der Amplituden:durch inverse Matrix W -1 Rauschen Kodierung Transmission Dekodierung Transformation W x x ~ inverse Transformation W -1

35 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Beispiel: Bildentstörung Bildkodierung Zerteilen in Blöcke, jeder Block = Mustervektor

36 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Beispiel: Bildentstörung ungestörtes Bild gestörtes Bild Bild mit Rausch- unterdrückung

37 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Rauschunterdrückung Problem: Vollständige Rekonstruktion ungestört gering gestört stark gestört

38 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013 PCA-Netze PCA-Transformation Transform Coding ICA-Transformation Weissen

39 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Einleitung Lineare Mischung unabhängiger Quellen Mikro 1 Mikro 2 Sprecher 1 Sprecher 2

40 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS ICA Anwendung: Audioanalyse 2 Sprecher mixed sources demixed sources Coctail-Party-Effekt ?

41 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Lineares ICA-Modell M s1s2 sns1s2 sn x 1 x 2 x n W y1y2 yny1y2 yn Quellenmix Entmischung Ziel:W M -1 y s mit p(y) = p(y 1,..,y n ) = p(y 1 )..p(y n ) unabhängige Kanäle Unabhängigkeit notwendig zur Quellentrennung. Yelling,Weinstein (1994): auch hinreichend!

42 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS ICA-Einschränkungen Quellenzahl = Mischzahl M muß regulär sein nur dann ex. M -1 Ausgabereihenfolge unbestimmt Reihenfolge in Produkt p(y 1 ) … p(y n ) ist unwichtig bis auf Permutation P bestimmbar: M M P Unbekannte Skalierung i = 1 2 Gaußsche Quellen lassen sich nicht trennen max 1 Gaußsche Quelle

43 Erzeugung einer Verteilung Erzeugen der Normalverteilung Problem : Verteilungsfkt. hat keine analyt. Lösung, nur tabelliert Inverse Funktion ex. nicht Lösung : Überlagern von Verteilungen Nutzung des Zentralen Grenzwertsatzes: x(n) = N(0,1) mit x(n) = mit beliebig verteilten X i und gemeinsamen = X i und X i uniform aus U(-1/2,1/2) N(0,1) durch n = 12 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS

44 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Erzeugung einer Normalverteilung p i = p(x mn =i ) picpic piapia pibpib i x mn = x a mn + x b mn + x c mn + + =

45 ICA Systemüberblick Independent Component Analysis (ICA) ursächl. beobachtete Variablen Einflüsse (Mischgeräusche) Interaktion der Ursachen Interaktion der Ursachen Sprech er Musik erschlossene Einflüsse Entkopplung Modell Para- meter Sprech er Musik Trennung unbekannter Quellen Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS

46 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS DEF Information I ~ n = ld(2 n ) = ld ( Zahl der möglichen Daten ) I ~ ld(1/P)[Bit] DEF I (X) := ln(1/P(x k )) = – ln(P(x k )) Information DEF H(X) := k P(x k )I(x k ) = I(x k ) k Entropie H(X) := p(x) ln p(x) -1 dx differenzielle Entropie Frage: Wieviel Information hat eine 32-bit floating-point Zahl?

47 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS DEF Transinformation DEFH(X,Y) = H(X) + H(Y) – I (X;Y) Verbundentropie Transformation H(X) H(Y) x 1 y 1 Transinformation Rauschen Redundanz Rauschen Redundanz n x n y DEFI(X;Y) = H(X) + H(Y) – H(X,Y) Transinformation

48 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Ziel: minimale Transinformation zwischen den Ausgaben y i x = Kanäle, stoch. Variablen Transinformation I(x 1 ;x 2 ) = H(x 1 ) + H(x 2 ) – H(x 1,x 2 ) minimal bei I(x 1 ;x 2 ) = 0 bzw. maximaler Entropie H(x 1,x 2 ) = H(x 1 ) + H(x 2 ) bzw. p(x 1,x 2 ) = p(x 1 ) p(x 2 ) stochastische Unabhängigkeit der Variablen ICA - Algorithmen 1 - W(t+1) = W(t) – I(y 1 ;y 2 ;..;y n ) Gradientenabstieg (Amari, Young, Cichocki 1996) Entwicklung von p(y 1,y 2,..,y n ) in I(y 1 ;y 2 ;..;y n ) nach höheren Momenten W(t+1) = W(t) – (1-f(y)y T )W(t) mit f i (y i ) =

49 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS ICA Anwendung: Audioanalyse 2 Sprecher mixed sources demixed sources Coctail-Party-Effekt Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS

50 FRAGE Wodurch werden die Quellen bei der Informationsmethode getrennt? a)Durch maximale Transinformation zwischen den Ausgabevariablen b)Durch maximale Entropie der Ausgaben c)Durch minimale Transinformation zwischen den Ausgabevariablen d)Durch minimale Verbundentropie der Ausgabekanäle Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS

51 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Momente einer Zufallsvariablen x : k = x k z.B. 1 = x Mittelwert Zentrale Momente einer Zufallsvariablen x : m k = (x- 1 ) k, z.B. m 2 = (x- 1 ) 2 Varianz Wölbungsmaß Kurtosis : kurt(x) = [ (x- 1 ) 4 -3m 2 2 ]/m 2 2 Statist. Momente und Kurtosis Supergaussian: Kurtosis > 0 Gaussian: Kurtosis = 0 Subgaussian: Kurtosis < 0

52 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS ICA-Algorithmen: Vorverarbeitungsfolge Zentrieren Mittelwertbildung, z.B. iterativ durch w 0 (t+1) = w 0 (t) - (w 0 -x), =1/t Weißen PCA durchführen: w i Eigenvektoren von C = xx T mit |w i |=1 und Eigenwerten i Gewichtsvektoren w i normieren zu w i / i 1/2. Dies führt zu y 2 = w i T xx T w i = w i T i w i = 1 Entmischen ICA Algorithmen, z.B. minimale Transinformation, maximale Kurtosis etc. Speziell: dekorrelierte x benötigen nur eine orthogonale Matrix W (Vereinfachung) M s1s2 sns1s2 sn x 1 x 2 x n x- x y1y2 yny1y2 yn B Quellenmix zentrieren weißen entmischen W x (x x

53 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Ziel: extremale Kurtosis (Delfosse, Loubaton 1995) Extrema bei s j = unabh. Komp, und z j = +/-1 kurt (y) = kurt (w T v) = kurt(w T Ms) = kurt (z T s) = ICA – Algorithmen 2 M s1s2 sns1s2 sn v 1 v 2 v n y1y2 yny1y2 yn Quellenmix zentrieren weißen entmischen W v i (v i v i Matrix Z

54 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS ICA – Algorithmen 2 Sequentielle Extraktion aller Komponenten Gegeben: Trainingsmenge {v(0)} Fixpunktalgorithmus w 1 (t+1) = (w 1 T v) 3 v – 3 w 1 mit |w 1 | = 1 Konvergenz zum 1. ICA-Vektor. (Hyvarinen, Oja 1996) Dann neue Trainingsmenge durch v(1) = v(0) – w 1 y 1 w 2 (t+1) = (w 2 T v) 3 v – 3 w 2 mit |w 2 | = 1 Konvergenz zum 2. ICA-Vektor, usw. Schnellere Konvergenz: Orthogonalisierung w i (t+1) = w i (t) - (w i w j ) w j j < i

55 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS ICA-Anwendungen : Bildprimitive Zerteilung von Naturbildern in 12x12 Unterbilder = 144 Kanäle = 1 Sample Unabhängige Komponenten(Filter-Koeff.)Alternative Analyseverfahren Bell, Sejnowski (Vision Research 1996)

56 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS ICA Anwendung: Bildentmischung 4 Bilder, sequentiell gerastert = 4 Quellen (Hyvarinen, Oja 1996) 4 Bilder 4 Kanäle 4 Mischbilder 4x4 Misch- matrix A Automatische Entmischung ?

57 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS ICA Anwendung: Bildentmischung 4 Bilder, sequentiell gerastert = 4 Quellen (Hyvärinen, Oja 1996) Mischbilderentmischte Bilder

58 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS ICA-EEG-Filterung Korrigierte EEG-Aufnahmen ohne 5 ICA-Muskelaktivitäten, Mischung

59 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS ICA-EEG-Analyse Entmischte EEG-Aufnahmen: unabhängige Zentren, z.B. Muskelaktivität Augenbewegungen R-L Muskelaktivität 1 Augenbewegungen oben-unten Muskeln 2 Muskeln 3 Jung, Humphries, Lee, Makeig, McKeown, Iragui, Sejnowski 1998


Herunterladen ppt "Adaptive lineare Transformationen AS1-3 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013 - 2 - Lineare Schichten Sequenz linearer Schichten."

Ähnliche Präsentationen


Google-Anzeigen