Adaptive lineare Transformationen AS-2

Slides:

Advertisements

Ähnliche Präsentationen

Perceptrons and the perceptron learning rule

Advertisements

Adaptive Systeme Prof. Rüdiger Brause WS 2011.

3. 3D-Betrachtungstransformationen

Streuung Bezeichnung Streuung=Dispersion=Variabilität Fragestellung:

Seminar „Extrapolationsmethoden für zufällige Felder“

Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.

Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.

Verifizieren versus Berechnen

HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer.

Adaptive Systeme Prof. Rüdiger Brause WS 2009.

Konkurrentes Lernen AS-1

Lernen und Klassifizieren AS-2

Adaptive lineare Transformationen AS-2

Adaptive lineare Transformationen AS-1

Regression und Korrelation

WS Algorithmentheorie 02 - Polynomprodukt und Fast Fourier Transformation Prof. Dr. Th. Ottmann.

Prof. Dr. S. Albers Prof. Dr. Th. Ottmann

Grundkurs Theoretische Informatik, Folie 2.1 © 2006 G. Vossen,K.-U. Witt Grundkurs Theoretische Informatik Kapitel 2 Gottfried Vossen Kurt-Ulrich Witt.

PKJ 2005/1 Stefan Dissmann Rückblick auf 2005 Was zuletzt in 2005 vorgestellt wurde: Klassen mit Attributen, Methoden und Konstruktoren Referenzen auf.

K. Desch - Statistik und Datenanalyse SS05

Bewegte Bezugssysteme

Differentieller Stromverstärker

Gaußscher Algorithmus

Kennlinie Lichtregelung in JavaNNS Version 1.1

Rechneraufbau & Rechnerstrukturen, Folie 12.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 12.

Neuronale Netze (Mitchell Kap. 4)

Extended multistep outflow method for the accurate determination of soil hydraulic properties close to water saturation W. Durner und S.C. Iden, SS2012.

Vielstoffthermodynamik

Best Fit Matching von Punktewolken

Ausgleichungsrechnung I

Ausgleichungsrechnung II

Beschreibung der energetischen Zustände der Elektronen

Lernen und Klassifizieren AS2-2

Adaptive lineare Transformationen AS-1

Adaptive Systeme Prof. Rüdiger Brause WS 2013.

Adaptive lineare Transformationen AS2-3 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Lineare Schichten Sequenz linearer Schichten.

Adaptive lineare Transformationen AS1-3

Adaptive Systeme-2 Grundlagen

Adaptive Systeme-2 Prof. Rüdiger Brause WS 2011 Organisation Einführung in adaptive Systeme B-AS-1, M-AS-1 Vorlesung Dienstags Uhr, SR9 Übungen.

Evolutionäre Algorithmen AS1-7

Lernen und Klassifizieren AS2-2

Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/

Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Information und Kommunikation Hartmut Klauck Universität Frankfurt SS

Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/

Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/

Neuronale Netze Nachtrag Perzeptron

Praktische Optimierung

STATISIK LV Nr.: 0028 SS Mai 2005.

Kapitel 3 Lineare Regression: Schätzverfahren

Analyse von Ablaufdiagrammen

PARTENARIAT ÉDUCATIF GRUNDTVIG PARTENARIAT ÉDUCATIF GRUNDTVIG REPERES KULTURELLER ZUSAMMENHALT UND AUSDEHNUNG DER IDEEN AUF EUROPÄISCHEM.

Radiale Basis-funktionen

Multivariate Statistische Verfahren

Multivariate Statistische Verfahren

Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.

1 Mathematical Programming Nichtlineare Programmierung.

Evolutionäre Algorithmen AS1-7

Nichtlineare Optimierung

Vom Neuron bis zur Boltzmann Maschine Miguel Domingo & Marco Block Seminar : Maschinelles Lernen und Markov KettenSommersemester 2002.

Institut für Informationssysteme Technische Universität Braunschweig Institut für Informationssysteme Technische Universität Braunschweig Verdrängung von.

Adaptive Modellierung und Simulation Kapitel 2: Black-Box- Modellierung Rüdiger Brause.

PCA Principal Component Analysis. Gliederung PCA – Warum eigentlich? PCA – Was ist zu tun? Was passiert eigentlich? Anwendungen Zusammenfassung.

Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.

Independent Component Analysis: Analyse natürlicher Bilder Friedrich Rau.

Präsentation transkript:

Adaptive lineare Transformationen AS-2

M Z B A y x(1) Lineare Schichten Sequenz linearer Schichten y(1) = A x(1) y(2) = B x(2) ... y(n) = Z x(n) M Z B A y x(1)  y(n) = ZBAx(1) y(n) = M x(1) Sequenz linearer Schichten = wie nur 1 Schicht ! Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011

PCA-Transformation PCA-Netze und Weissen ICA-Transformation Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011

Unendliches Wachstum ?? Hebb‘sches Lernen Dw = wi(t)-wi(t-1) = i(t) yix Iterative Hebb'sche Lernregel DW = W(t)-W(t-1) = (t) yxT W = W(1) + W(2) + W(3) + … Problem: ex. kein „Vergessen“, w   Unendliches Wachstum ?? Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011

Hebb‘sches Lernen - Ergänzungen Lösung 1: lin. Term, Abklingen der Synapsen w(t) = w(t-1) + (t) yx Iterative Hebb'sche Lernregel w(t) = w(t-1) + (t) (yx - w(t-1)) Abklingen des Gewichts -1  w(t)-w(t-1) = yx - w(t-1) Diff.gleichung mit  = 1/ Erwartetes Ziel bei lin. System y = wTx Cxx:= xxT = 1xy - 2 w = 1xxTw - w = 1xxT w - 2w = 0  Cxxw = w bei Fixpunkt w = w*Eigenvektor von Cxx w* stabil? 1-dim Beispiel: Nein! = 1xy - 2 wn nicht-lin. Abklingterm n>1 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011

Hebb‘sches Lernen - Ergänzungen Lösung : Normierung der Gewichte w(t) = w(t-1) + (t) yx mit |w(t)| = 1 Wie? (t) = (t-1) + (t) yx w(t) = ____= (t-1) + (t) yx | | | | Wohin konvergiert w(t) ? Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011

Lernen: beschränkte Hebbsche Regel Konvergenzziel? wi(t) = wi(t-1) + i(t) yix Hebb'sche Lernregel mit NB |w| = const. = wi(t-1) + i(t) Gradientenaufstieg Also: = xy = xxT w = Aw bei y = xTw lin. Neuron Zielfunktion R(w) = ½ wTAw mit |w| = const = 1 Extremwert von L(w,µ) = R(w) + µ·(|w|2 – 1) Lagrangefunktion bei (w,) = + 2w = Aw + 2w = 0 Aw = w Eigenwertgleichung mit  := –2 w  EV(A) mit EW  = max Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011

Principal Component Analysis PCA Zerlegung in orthogonale Eigenvektoren = Basisvektoren „Hauptkomponentenanalyse“, „principal component analysis“, „Karhunen-Loéve-Entwicklung“, „Hotelling-Transformation“,... Eigenvektoren – Wozu? e 2 Merkmals-transformation auf Hauptrichtungen e 1 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011

Principal Component Analysis PCA Transformation auf Unkorreliertheit  (x1-x1)(x2- x2)  = 0 Unkorrreliertheit von x1,x2 Beispiel Rauschfrei korrelierte Daten x = (x1,x2) mit x2 = ax1 Rechnung: EV, EW = ? Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011

Dekorrelation und Unabhängigkeit DEF dekorreliert: (yi-yi)(yj- yj) = yi-yiyj-yj = 0 i≠j Satz: PCA dekorreliert Daten DEF PCA: y = wTx mit Cxxw = lw Eigenvektoren  Mit PCA gilt yi‘=yi-y̅i , x‘= x-x̅ yi‘yj‘ =  wiTx‘ x‘Twj  = wiTx‘ x‘Twj = wiTCxxwj = wiT jwj = da ja wiTwj = gilt. Daten sind unabhängig  Daten sind dekorreliert DEF unabhängig: P(xi,xj) = P(xi)P(xj) xi,xj Zufallsvariable  yiyj = = = = yiyj = 0 bei yi=0 i≠j Aber: umgekehrt gilt nicht: dekorreliert ist nicht unabhängig! Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011

Transformation mit minimalem MSE Allgemeine Situation l i n . T r a n s f o r m a t i o n { y } x . . 1 1 . y · X y W x · m Y . m+1 · . x n Y n R(W) = min (x- )2 least mean squared error (LMSE) Wann minimal ? Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011

Transformation mit minimalem MSE Minimaler Rekonstruktionsfehler R(W) = min (x- )2 least mean squared error (LMSE) x = + = + yi = xTwi Was ist die beste Schätzung für die Konstanten ci? min R(ci) = ? Rechnung! Anhang B Bei welchen Basisvektoren wi ist der Fehler minimal ? min R(wi) = ? Rechnung! Anhang B Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011

Transformation mit minimalem MSE m Messungen f(x) x Modellierung als Gerade y = f(x) = y0 + ax Beispiel: Ökonomie Konsum y = f(Einkommen x) = Konsumsockel + a Einkommen Problem: Ergebnis hängt vom Koord.system ab Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011

Transformation mit minimalem MSE Minimaler mittlerer Abstand zur Gerade (Hyperebene)  x u d d = xTw – c = g(x) w a c = x*Tu/|u| – c = x*Tw – c Hessesche Normalform Hyperebene mit g(x*) = 0 TLMSE = R(w,c) = d2 Rechnung: Minimum des TLMSE (Kap.3.3.1) Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011

PCA-Netze und Weissen PCA-Transformation ICA-Transformation Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011

PCA Netze für geordnete Zerlegung Sanger-Methode Sanger 1988 Vollständige Zerlegung von {x} in n Eigenvektoren (Gram-Schmidt) {x}0 = {x}, i=1 Suche die Richtung größter Varianz in {x}i-1. Dies ist ei. Ziehe diese Richtung (Dimension) von {x}i-1 ab. Wir erhalten {x}i . Wenn i<n, setze i := i+1, gehe zu 1. Diskret für stochastisches x, w: Sanger-Netz X x 1 m - W ® e M · Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2009 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011 - 16 -

PCA Netze durch laterale Inhibition Asymmetrische Netze Rubner, Tavan 1990 yi = wiTx + Aktivität = (wi + )Tx =: wi =  xyi Hebb-Lernen  uik = -  yiyk Anti-Hebb-Lernen Anti-Hebb auch aus Prinzip „kleinste gemeins. Information“ H(yk,yi) Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011

~ x x W W-1 Whitening Filter Rauschen inverse Transformation Shannon: Whitening für alle Frequenzen, d.h. alle diskreten Signalbänder Übertragung auf parallele Signale yi : gleiche Varianz aller durch Transformation W. Anhebung zu geringer Amplituden: Wähle W so, dass = 1 bei i = j, sonst = 0; also áyyTñ = I Absenkung der Amplituden: durch inverse Matrix W-1 Rauschen x x ~ inverse Transformation W-1 Transformation W Kodierung Transmission Dekodierung Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011

Whitening Filter Anhebung bei parallelen Signalen Wenn für die Transformation W eine orthonormale Basis M-1 = MT gewählt wird, ist das Ziel des Lernens mit I = áyyTñ = áWxxTWTñ = WáxxTñWT = WAWT auch WTI = WT (WAWT) = AWT bzw. wk = Awk Eigenvektoren wk von A mit  = 1 Also: Signal zentrieren und PCA durchführen. Wir erhalten orthonormale Eigenvektoren ei mit Eigenwerten i. ei normieren: wi = ei / i1/2 so dass | wi |2 =1/ i . Es ergibt sich orthogonale Transformationsmatrix W mit Zeilenvektoren wi Sie erfüllt áyiyiñ = áwiTxxTwiñ = wiTAwi = wiTwii = 1 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011

Absenkung (Rücktransformation) W-1 = ? Whitening Filter Absenkung (Rücktransformation) W-1 = ? Wenn B = (1w1,..., nwn) gewählt wird, ist mit |wi|2 = i-1 mit WB = = = I, Also ist W-1 = B mit den Spalten aus den Zeilen von W. Also: Rücktransformation Aus der PCA haben wir ei, i mit |ei|2 = 1 und so die Matrix W mit |wi|2 = i-1 Basis bi bilden aus W : bi = (1w1i, 2w2i, ..., nwni) Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011

Orthonormalisierende Netze Heuristische Methode Silva, Almeida 1991 Ziel: Projektion aij := wiTwj eines Basisvektors wi auf einen anderen wj vermindern wi(t) = wi(t-1) – (t) aijwj(t-1) = wi(t-1) – (t) (wiT(t-1)wj(t-1)) wj(t-1) + (1-yi2) wi(t) Normierung Ziel: orthogonal im Datenraum: aij := yiyj = w Alle Einflüsse Für die Matrixversion werden die Erwartungswertterme zusammengefasst zu einer Summe über alle j. wi(t) = wi(t-1) – (t) yiyj wj(t-1) wiT(t-1)wj(t-1) ) wj(t-1) + (1-yi2) wi(t) W(t+1) = W(t) – Cyy(t) W(t) + W(t) Matrixversion Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011

Orthonormalisierende Netze Konvergenz der Heuristischen Methode Silva, Almeida 1991 Beh: Cyy  I mit Cyy = yyT = WxxTWT= WCxxWT Bew: Einsetzen der Matrixversion W(t+1) = W(t) - Cyy(t) W(t) + W(t)  Cyy(t+1) = 2 Cyy3 -2(1+)Cyy2+(1+)2Cyy Darstellung im Eigenvektorraum Cyy ei = eii  CyyE = E  Cyy = EET ändert die Eigenvektoren nicht, sondern nur die Eigenwerte l zu (t+1) = 23 - 2(1+)2 + (1+)2 Fixpunktgleichung l(t+1) Konvergenz 1  CyyI q.e.d. Ex. keine Zielfunktion ! l(t) l*=1 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2009 - 22 -

Konvergenz von Fixpunkten Stabiler Fixpunkt Labiler Fixpunkt | g´(w) | > 1 | g´(w) | < 1 bzw. < 1 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011

Orthonormalisierende Netze Symmetrisches, lateral inhib.Netz Brause, Rippl 1998 Vor: zentrierte Eingabe x Ziel: min Kreuzkorr., Autokorr. = 1 für Zielfunktion R(w) = ¼i jyiyj2 ¼i(yi2-1)2 Gradientenabstieg wi(t) = wi(t-1) + (t)x (juijyj + yi) uij = - yiyj lateral inhibition Stoch.Version Konvergenz der Transformation: lat. Inhib. uij wird null Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011

Ausblick: lineare und nichtlineare PCA Lineare Hauptachsentransformation Dynamische Hauptachsentransformation e 2 b 1 e 2 b 1 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011

ICA-Transformation PCA-Transformation PCA-Netze und Weissen Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011

M W Lineares ICA-Modell Quellenmix Entmischung Ziel: W M-1 y s sn y1 y2 yn x1 x2 xn M W Ziel: W M-1 y s mit p(y) = p(y1,..,yn) = p(y1)..p(yn) unabhängige Kanäle Unabhängigkeit notwendig zur Quellentrennung. Yelling,Weinstein (1994): auch hinreichend! Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011

Lineare Koordinatentransformationen Beispiel: PCA-Hauptkomponentenanalyse Richtung stärkster Varianz ICA- Unabhängigkeitsanalyse statistische Unabhängigkeit Beispiel: 2 e 1 e c 2 1 x = x1+x2, y = x2 mit x1,x2 zufällig uniform aus [-1,+1] M = ? b c1 := x-y, c2 := y also c1= x1 unabh. von c2= x2 2 b , 1 Man beachte, dass obige Zeichnung nur qualitative Aussagen macht. Bei genauem Nachprüfen bemerken wir, dass die Ecken des Parallelogramms in (-2,-1), (0,1), (2,1), (0,-1) liegen müssen. M-1 = Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011

 si := 1 Beweis: Rechnung Kap.3.4 ICA-Einschränkungen Quellenzahl = Mischzahl M muß regulär sein  nur dann ex. M-1 Ausgabereihenfolge unbestimmt Reihenfolge in p(y1)..p(yn) ist unwichtig => M-1 bis auf Permutation P bestimmbar: M-1 -> M-1 P Unbekannte Skalierung  si := 1 Beweis: Rechnung Kap.3.4 2 Gaußsche Quellen lassen sich nicht trennen  max 1 Gaußsche Quelle Beweis: Rechnung Kap.3.4 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011

DEF Information I ~ n = ld(2n) = ld (Zahl der möglichen Daten) I ~ ld(1/P) [Bit] DEF I(X) := ln(1/P(xk)) = – ln(P(xk)) Information DEF H(X) := k P(xk)I(xk) = I(xk)k Entropie H(X) := p(x) ln p(x)-1dx differenzielle Entropie Antwort: Wenn alle Vorkommen aller Zahlen gleichwahrscheinlich sind, sind es 32 Bit, sonst weniger. Frage: Wieviel Information hat eine 32-bit floating-point Zahl? DEF I(X;Y) = H(X) + H(Y) – H(X,Y) Transinformation mutual information Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011

ICA - Algorithmen 1a Ziel: minimale Transinformation zwischen den Ausgaben yi x = InputKanäle, stoch. Variable y = Output Transinformation I(y1;y2) = H(y1) + H(y2) – H(y1,y2) minimal bei I(y1;y2) = 0 bzw. maximaler Entropie H(y1,y2) = H(y1) + H(y2) bzw. p(y1,y2) = p(y1)p(y2) stochastische Unabhängigkeit der Variablen yi - W(t+1) = W(t) – I(y1;y2;..;yn) Gradientenabstieg (Amari, Young, Cichocki 1996) Entwicklung von p(y1,y2,..,yn) in I(y1;y2;..;yn) nach höheren Momenten W(t+1) = W(t) – (1-f(y)yT)W(t) mit fi(yi) = Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2009 - 31 -

ICA - Algorithmen 1b Ziel: maximale Transinformation (Bell, Sejnowski 1995) zwischen Eingabe und Ausgabe - Transinformation I(X;Y) = H(Y) – H(Y|X) aus Def. H(Y|X) ist konstant im determinist. System Maximimierung von I(X;Y) durch Maximierung von H(Y) R(w) := H(Y) = H(X) + p(x) ln |det J|dx mit J = Nicht-lin. Ausgabe y, z.B. y = tanh(z) Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2009 - 32 -

Informationstransformation H(Y) = ? H(Y) = H(Y(X)) x 1 · n y Trans - formation J Transformation kontinuierlicher Zufallsvariabler dy = |det J| dx  p(y(x)) = p(x) |det J|-1 H(Y) = – p(y) ln p(y) dy = – (p(x) |det J|-1 ) ln (p(x) • |det J|-1) |det J| dx = – p(x) ln p(x) dx + p(x) ln |det J| dx y(x) = Wx  J = W H(Y) = H(X) + ln |det(W)| Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2009 - 33 -

ICA - Algorithmen 1b Ziel: maximale Transinformation (Bell, Sejnowski 1995) zwischen Eingabe und Ausgabe - Gradientenregel W(t+1) = W(t) + g( – 2yxT) Rechnung: 1-dim Fall (Kap.3.4.1) „Natürl.“Gradient Amari 1985 = DW = g(t) WTW = g(I – 2yzT)W Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2009 - 34 -

Statist. Momente und Kurtosis Momente einer Zufallsvariablen x : ai= x i, z.B. a1 = x Mittelwert Zentrale Momente einer Zufallsvariablen x: mk= (x-a1)k, z.B. m2 = (x-a1)2 Varianz Wölbungsmaß Kurtosis: kurt(x) = [(x-a1)4 -3m22]/m22 Supergaussian: Kurtosis > 0 Gaussian: Kurtosis = 0 Subgaussian: Kurtosis < 0 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011

ICA-Algorithmen: Vorverarbeitungsfolge sn x1 x2 xn x-áxñ y1 y2 yn B Quellenmix zentrieren weißen entmischen W áxñ=0 (x-áxñ)2=1 Zentrieren Mittelwertbildung, z.B. iterativ durch w0(t+1) = w0(t) - g (w0-x), g =1/t Weißen PCA durchführen: wi Eigenvektoren von C = xxT mit |wi|=1 und Eigenwerten li Gewichtsvektoren wi normieren zu wi/li1/2. Dies führt zu y2 = wiTxxTwi = wiTliwi = 1 Entmischen ICA Algorithmen, z.B. minimale Transinformation, maximale Kurtosis etc. Speziell: dekorrelierte x benötigen nur eine orthogonale Matrix W (Vereinfachung) Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011

M W Matrix Z ICA – Algorithmen 2 Ziel: extremale Kurtosis (Delfosse, Loubaton 1995) Extrema bei sj = unabh. Komp, und zj = +/-1 kurt (y) = kurt (wTv) = kurt(wTMs) = kurt (zTs) = M s1 s2 sn v1 v2 vn y1 y2 yn Quellenmix zentrieren weißen entmischen W áviñ=0 (vi-áviñ)2=1 Matrix Z Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011

w(t+1) = á(wTv)3vñ – 3 w Fixpunktalgorithmus ICA – Algorithmen 2 Ziel: extremale Kurtosis bei y = wTv R(w) = á(wTv)4ñ – 3 á (wTv)2ñ2 = minw w(t+1) = w(t) + g grad R(w) = w(t) + g 4 (á(wTv)3vñ – 3|w|2 w) Bei |w| = 1 ist die Richtung gegeben durch w(t+1) = a(á(wTv)3vñ – bw) Lernalgorithmus für einzelnes Neuron (Hyvarinen, Oja 1996) w(t+1) = á(wTv)3vñ – 3 w Fixpunktalgorithmus mit |w| = 1 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011

w1(t+1) = á(w1Tv)3vñ – 3 w1 mit |w1| = 1 ICA – Algorithmen 2 Sequentielle Extraktion aller Komponenten Gegeben: Trainingsmenge {v(0)} w1(t+1) = á(w1Tv)3vñ – 3 w1 mit |w1| = 1 Konvergenz zum 1. ICA-Vektor. Dann neue Trainingsmenge durch v(1) = v(0) – w1y1 w2(t+1) = á(w2Tv)3vñ – 3 w2 mit |w2| = 1 Konvergenz zum 2. ICA-Vektor, usw. Schnellere Konvergenz: Orthogonalisierung wi(t+1) = wi(t) - (wi wj) wj j < i Orthogonalisierung erspart aber auch die neue TRainingsmenge! Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011

ICA-Anwendung: Audioanalyse Mischung entmischte Quellen speaker Mix1 Mix2 singer Mix3 violin Mix4 orchestra Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2011