Adaptive lineare Transformationen AS2-3 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013 - 2 - Lineare Schichten Sequenz linearer Schichten.

Slides:



Advertisements
Ähnliche Präsentationen
Perceptrons and the perceptron learning rule
Advertisements

Adaptive Systeme Prof. Rüdiger Brause WS 2011.
3. 3D-Betrachtungstransformationen
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Telefonnummer.
CPCP Institute of Clinical Pharmacology AGAH Annual Meeting, 29. Februar 2004, Berlin, Praktischer Umgang mit den Genehmigungsanträgen gemäß 12. AMG Novelle.
Seminar „Extrapolationsmethoden für zufällige Felder“
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2012.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
HEINZ NIXDORF INSTITUT Universität Paderborn Fachbereich Mathematik/Informatik 1 Algorithm. Grundlagen des Internets 24. Juni 2002 Christian Schindelhauer.
Adaptive Systeme Prof. Rüdiger Brause WS 2009.
Konkurrentes Lernen AS-1
Adaptive lineare Transformationen AS-2
Adaptive lineare Transformationen AS-1
Regression und Korrelation
WS Algorithmentheorie 02 - Polynomprodukt und Fast Fourier Transformation Prof. Dr. Th. Ottmann.
Grundkurs Theoretische Informatik, Folie 2.1 © 2006 G. Vossen,K.-U. Witt Grundkurs Theoretische Informatik Kapitel 2 Gottfried Vossen Kurt-Ulrich Witt.
Beispiele für Gleichungssysteme
Vererbung Spezialisierung von Klassen in JAVA möglich durch
K. Desch - Statistik und Datenanalyse SS05
Bewegte Bezugssysteme
Astronomisch, Physikalische und Mathematische Geodäsie II
AC Analyse.
Rechneraufbau & Rechnerstrukturen, Folie 12.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 12.
Distanzbasierte Sprachkommunikation für Peer-to-Peer-Spiele
Neuronale Netze (Mitchell Kap. 4)
20:00.
Ausgleichungsrechnung II
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Lernen und Klassifizieren AS2-2
Adaptive lineare Transformationen AS-1
Adaptive Systeme Prof. Rüdiger Brause WS 2013.
Adaptive lineare Transformationen AS1-3
Radiale Basis-funktionen AS1-5
Adaptive Systeme-2 Grundlagen
Adaptive Systeme-2 Prof. Rüdiger Brause WS 2011 Organisation Einführung in adaptive Systeme B-AS-1, M-AS-1 Vorlesung Dienstags Uhr, SR9 Übungen.
Adaptive lineare Transformationen AS-2
Lernen und Klassifizieren AS2-2
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Information und Kommunikation
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Praktische Optimierung
Fundamente der Computational Intelligence (Vorlesung) Prof. Dr. Günter Rudolph Fachbereich Informatik Lehrstuhl für Algorithm Engineering Wintersemester.
Kapitel 3 Lineare Regression: Schätzverfahren
Analyse von Ablaufdiagrammen
PROCAM Score Alter (Jahre)
Vorlesung Mai 2000 Konstruktion des Voronoi-Diagramms II
Symmetrische Blockchiffren DES – der Data Encryption Standard
Großer Altersunterschied bei Paaren fällt nicht auf!
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
Radiale Basis-funktionen
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.
1 Mathematical Programming Nichtlineare Programmierung.
Tutorium Statistik II Übung IV Philipp Schäpers Mi – 11.45
1 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt Wie.
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
Monatsbericht Ausgleichsenergiemarkt Gas – Oktober
Nichtlineare Optimierung
Institut für Informationssysteme Technische Universität Braunschweig Institut für Informationssysteme Technische Universität Braunschweig Verdrängung von.
Adaptive Modellierung und Simulation Kapitel 2: Black-Box- Modellierung Rüdiger Brause.
PCA Principal Component Analysis. Gliederung PCA – Warum eigentlich? PCA – Was ist zu tun? Was passiert eigentlich? Anwendungen Zusammenfassung.
Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.
Independent Component Analysis: Analyse natürlicher Bilder Friedrich Rau.
 Präsentation transkript:

Adaptive lineare Transformationen AS2-3

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Lineare Schichten Sequenz linearer Schichten y (1) = A x (1) y (2) = B x (2)... y (n) = Z x (n) y (n) = Z B Ax (1) y (n) = M x (1) ZBA x (1) y M Sequenz linearer Schichten = wie nur 1 Schicht !

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013 PCA-Netze PCA-Transformation ICA-Transformation Weissen

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Hebbsches Lernen w = w i (t) -w i (t-1) = i (t) y i x Iterative Hebb'sche Lernregel W = W (t) -W (t-1) = (t) yx T W = W(1) + W(2) + W(3) + … Problem: ex. kein Vergessen, w Unendliches Wachstum ??

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Hebbsches Lernen - Ergänzungen Lösung 1: lin. Term, Abklingen der Synapsen w (t) = w (t-1) + (t) yx Iterative Hebb'sche Lernregel w (t) = w (t-1) + (t) (yx - w (t-1) ) Abklingen des Gewichts -1 w (t) -w (t-1) = yx - w (t-1) Diff.gleichung mit = 1/ Erwartetes Ziel bei lin. System y = w T x C xx := xx T = 1 xy - 2 w = 1 xx T w - w = 1 xx T w - 2 w = 0 C xx w = w bei Fixpunkt w = w*Eigenvektor von C xx w* stabil?1-dim Beispiel: Nein! = 1 xy - 2 w n nicht-lin. Abklingterm n>1

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Hebbsches Lernen - Ergänzungen Lösung : Normierung der Gewichte w (t) = w (t-1) + (t) yx mit |w (t) | = 1 Wie? (t) = w (t-1) + (t) yx w (t) = ____= w (t-1) + (t) yx | | | | Wohin konvergiert w(t) ?

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Lernen: beschränkte Hebbsche Regel Konvergenzziel ? w i (t) = w i (t-1) + i (t) y i x Hebb'sche Lernregel mit NB |w| = const. = w i (t-1) + i (t) Gradientenaufstieg Also: = xy = xx T w = Awbei y = x T w lin. Neuron, wobei x = 0 zentriert Zielfunktion R(w) = ½ w T Aw mit Nebenbedingung |w| = const = 1 Lagrangefunktion L(w,µ) = R(w) + µ·( |w| 2 – 1) Extremwertbei (w, ) = + 2w = Aw + 2w = 0 Aw = w Eigenwertgleichung mit := –2 w EV(A) mit EW = max

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Principal Component Analysis PCA Zerlegung in orthogonale Eigenvektoren = Basisvektoren Hauptkomponentenanalyse, principal component analysis, Karhunen-Loéve-Entwicklung, Hotelling-Transformation,... Eigenvektoren – Wozu? e 1 e 2 Merkmals- transformation auf Hauptrichtungen

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Principal Component Analysis PCA Transformation auf Unkorreliertheit Beispiel (x 1 - x 1 ) (x 2 - x 2 ) = 0Unkorrreliertheit von x 1,x 2 Rauschfrei korrelierte Daten x = (x 1,x 2 ) mit x 2 = ax 1 Rechnung: EV, EW = ?

Dekorrelation und Unabhängigkeit DEF dekorreliert: (y i - y i ) (y j - y j ) y i - y i y j - y j = 0 ij Satz: PCA dekorreliert Daten DEF PCA: y = w T x mit C xx w = w Eigenvektoren Mit PCA gilt y i =y i -y ̅ i, x= x-x ̅ y i y j = w i T x x T w j w i T x x T w j w i T C xx w j = w i T j w j = da ja w i T w j = gilt. Daten sind unabhängig Daten sind dekorreliert DEF unabhängig:P(x i,x j ) = P(x i )P(x j ) x i,x j Zufallsvariable y i y j = y i y j = 0 bei y i =0 ij Aber: umgekehrt gilt nicht: dekorreliert ist nicht unabhängig! Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS R(W) = min (x- ) 2 least mean squared error (LMSE) Transformation mit minimalem MSE Konzept Transform Coding. · · · l i n. T r a n s f o r m a t i o n W x x 1 x n X { y }.. 1 y m y Y m+1.. Y n Wann minimal ?

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Transformation mit minimalem MSE Was ist die beste Schätzung für die Konstanten c i ? min R(c i ) = ? Rechnung ! Anhang B R(W) = min (x- ) 2 least mean squared error (LMSE) Minimaler Rekonstruktionsfehler Bei welchen Basisvektoren w i ist der Fehler minimal ? min R(w i ) = ? Rechnung ! Anhang B y i = x T w i + x = + =

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Transformation mit minimalem MSE m Messungen f(x) x Modellierung als Gerade y = f(x) = y 0 + ax lineare Approximation Beispiel: Ökonomie Konsum y = f(Einkommen x) = Konsumsockel + a Einkommen Problem: Ergebnis hängt vom Koord.system ab

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Transformation mit minimalem MSE Total Least Mean Squared Error TLMSE Minimaler mittlerer Abstand zur Gerade (Hyperebene) c u x d Hyperebene mit g(x*) = 0 w = x* T u/|u| – c = x* T w – c Hessesche Normalform d = x T w – c = g(x) TLMSE = R(w,c) = d 2 Rechnung: Minimum des TLMSE ( Kap.3.3.1)

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013 PCA-Netze PCA-Transformation ICA-Transformation Weissen

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS PCA Netze für geordnete Zerlegung Sanger-MethodeSanger 1988 Vollständige Zerlegung von {x} in n Eigenvektoren {x} 1 = {x}, i=1 wobei x = 0 zentriert 1. Suche die Richtung größter Varianz in {x} i, etwa mit der Hebb- Lernregel und |w i | =1. Dies ist w i e i. 2. Ziehe alle Anteile in der Richtung w i von {x} i ab. Wir erhalten {x} i+1. x i+1 := x i – y i w i 3. Wenn i<n, setze i := i+1, gehe zu 1. Diskret für stochastisches x, w:Sanger-Netz x x 1 x m - 1 x m w 1 e 1 w M e M ···

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS PCA Netze durch laterale Inhibition Asymmetrische NetzeRubner, Tavan 1990 y i = w i T x + Aktivität = (w i + ) T x =: w i = xy i Hebb-Lernen u ik = - y i y k Anti-Hebb-Lernen Anti-Hebb auch aus Prinzip kleinste gemeins. Information H(y k,y i )

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013 PCA-Netze PCA-Transformation ICA-Transformation Weissen

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Kodierung: Verstärkung zu geringer Amplituden Dekodierung: Absenkung der Amplituden Rauschen Whitening Filter Problem Störung von Signalen durch Rauschen Lösung Frequenz f spektrale Energie |Y| 2 Rauschen Frequenz f spektrale Energie |Y| 2 Störung

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Whitening Filter Shannon : Whitening für alle Frequenzen, d.h. alle diskreten Signalbänder Übertragung auf parallele Signale y i : gleiche Varianz aller durch Transformation W. Anhebung zu geringer Amplituden: Wähle W so, dass = 1 bei i = j, sonst = 0; also yy T = I Absenkung der Amplituden:durch inverse Matrix W -1 Rauschen Kodierung Transmission Dekodierung Transformation W x x ~ inverse Transformation W -1

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Whitening Filter Anhebung bei parallelen Signalen Wenn für die Transformation W eine orthonormale Basis M -1 = M T gewählt wird, ist das Ziel des Lernens mit I = yy T = Wxx T W T = W xx T W T = WAW T auch W T I = W T (WAW T ) = AW T bzw.w k = Aw k Eigenvektoren w k von A mit = 1 Also: 1.Signal zentrieren und PCA durchführen. Wir erhalten orthonormale Eigenvektoren e i mit Eigenwerten i. 2.e i normieren: w i = e i / i 1/2 so dass | w i | 2 =1/ i. Es ergibt sich orthogonale Transformationsmatrix W mit Zeilenvektoren w i Sie erfüllt y i y i = w i T xx T w i = w i T Aw i = w i T w i i = 1

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Whitening Filter Absenkung (Rücktransformation) W -1 = ? Wenn B = ( 1 w 1,..., n w n ) gewählt wird, ist mit |w i | 2 = i -1 mit W B = = = I, Also ist W -1 = B mit Spalten aus den um i ergänzten Zeilen von W. Also: Rücktransformation 1.Aus der PCA haben wir e i, i mit |e i | 2 = 1 und so die Matrix W mit |w i | 2 = i Basis b i bilden aus W : b i = ( 1 w 1i, 2 w 2i,..., n w ni ) Implementierung: Orthonormalisierende Netze

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Orthonormalisierende Netze Heuristische Methode Silva, Almeida 1991 Ziel: Projektion a ij := w i T w j eines Basisvektors w i auf einen anderen w j vermindern w i ( t ) = w i ( t-1 ) – ( t ) a ij w j ( t-1 ) = w i ( t-1 ) – ( t ) (w i T ( t-1 )w j ( t-1 )) w j ( t-1 ) w i (t) = w i (t-1) – (t) w i T (t-1) w j (t-1) ) w j (t-1) Alle Einflüsse y i y j w j (t-1) Ziel: orthogonal im Datenraum: a ij := y i y j = w W(t+1) = W(t) – C yy (t) W(t) + W(t) Matrixversion + (1- y i 2 ) w i (t) + (1- y i 2 ) w i (t) Normierung

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Orthonormalisierende Netze Konvergenz der Heuristischen Methode Silva, Almeida 1991 Beh : C yy I mit C yy = yy T = W xx T W T = WC xx W T Bew: Einsetzen der Matrixversion W(t+1) = W(t) - C yy (t) W(t) + W(t) C yy (t+1) = 2 C yy 3 -2 (1+ )C yy 2 +(1+ ) 2 C yy Darstellung im Eigenvektorraum C yy e i = e i i C yy E = E C yy = E E T ändert die Eigenvektoren nicht, sondern nur die Eigenwerte zu (t+1) = (1+ ) 2 + (1+ ) 2 Fixpunktgleichung Konvergenz 1 C yy Iq.e.d. Ex. keine Zielfunktion ! =1 (t+1) (t) Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Stabile, labile Fixpunkte?

Konvergenz von Fixpunkten | g´(w) | < 1 bzw. < 1 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS | g´(w) | > 1 Stabiler Fixpunkt Labiler Fixpunkt

FRAGE Sei eine Iteration mit g(x) = x 2 gegeben. Welche Fixpunkte gibt es? Welche sind stabil und welche labil? Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Orthonormalisierende Netze Symmetrisches, lateral inhib.Netz Brause, Rippl 1998 Vor: zentrierte Eingabe x Ziel: min Kreuzkorr., Autokorr. = 1 für Zielfunktion R(w) = ¼ i j y i y j 2 ¼ i ( y i 2 -1) 2 Gradientenabstieg w i (t) = w i (t-1) (t) x ( j u ij y j + y i ) u ij = - y i y j lateral inhibition Konvergenz der Transformation: lat. Inhib. u ij wird null Stoch.Version

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Ausblick: lineare und nichtlineare PCA Lineare Hauptachsentransformation Dynamische Hauptachsentransformation e 2 b 1 b 2 e 1 e 2 b 1 b 2 e 1 e 1 e 1 e 2 e 2

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013 PCA-Netze PCA-Transformation ICA-Transformation Weissen

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Einleitung Lineare Mischung unabhängiger Quellen Mikro 1 Mikro 2 Sprecher 1 Sprecher 2

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Lineares ICA-Modell M s1s2 sns1s2 sn x 1 x 2 x n W y1y2 yny1y2 yn Quellenmix Entmischung Ziel:W M -1 y s mit p(y) = p(y 1,..,y n ) = p(y 1 )..p(y n ) unabhängige Kanäle Unabhängigkeit notwendig zur Quellentrennung. Yelling,Weinstein (1994): auch hinreichend!

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Lineare Koordinatentransformationen l PCA-Hauptkomponentenanalyse Richtung stärkster Varianz l ICA- Unabhängigkeitsanalyse statistische Unabhängigkeit Beispiel: 1 b 2 b, e 2 e 1 c 2 1 c c 1 := x 1 – x 2, c 2 := x 2 also c 1 = s 1 unabh. von c 2 = s 2 x 1 = s 1 +s 2, x 2 = s 2 mit s 1,s 2 zufällig uniform aus [-1,+1] M = ? M -1 =

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS ICA-Einschränkungen Quellenzahl = Mischzahl M muß regulär sein nur dann ex. M -1 Ausgabereihenfolge unbestimmt Reihenfolge in p(y 1 )..p(y n ) ist unwichtig bis auf Permutation P bestimmbar: M M P Unbekannte Skalierung i = 1 Beweis: Rechnung Kap Gaußsche Quellen lassen sich nicht trennen max 1 Gaußsche Quelle Beweis: Rechnung Kap.3.4

INFORMATIONS-METHODE Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS DEF Information I ~ n = ld(2 n ) = ld ( Zahl der möglichen Daten ) I ~ ld(1/P)[Bit] DEF I (X) := ln(1/P(x k )) = – ln(P(x k )) Information DEF H(X) := k P(x k ) I (x k ) = I (x k ) k Entropie H(X) := p(x) ln p(x) -1 dx differenzielle Entropie Frage: Wieviel Information hat eine 32-bit floating-point Zahl? DEF I (X;Y) = H(X) + H(Y) – H(X,Y) Transinformation mutual information

Ziel: minimale Transinformation zwischen den Ausgaben y i x = InputKanäle, stoch. Variable y = Output Transinformation I(y 1 ;y 2 ) = H(y 1 ) + H(y 2 ) – H(y 1,y 2 ) minimal bei I(y 1 ;y 2 ) = 0 bzw. maximaler Entropie H(y 1,y 2 ) = H(y 1 ) + H(y 2 ) bzw. p(y 1,y 2 ) = p(y 1 ) p(y 2 ) stochastische Unabhängigkeit der Variablen y i ICA - Algorithmen 1a - W(t+1) = W(t) – I(y 1 ;y 2 ;..;y n ) Gradientenabstieg (Amari, Young, Cichocki 1996) Entwicklung von p(y 1,y 2,..,y n ) in I(y 1 ;y 2 ;..;y n ) nach höheren Momenten W(t+1) = W(t) – (1-f(y)y T )W(t) mit f i (y i ) = Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS

Transinformation I(X;Y) = H(Y) – H(Y|X) aus Def. H(Y|X) ist konstant im determinist. System Maximimierung von I(X;Y) durch Maximierung von H(Y) R(w) := H(Y) ICA - Algorithmen 1b - Ziel : maximale Transinformation (Bell, Sejnowski 1995) zwischen Eingabe und Ausgabe Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS

Informationstransformation Transformation kontinuierlicher Zufallsvariabler H(Y) = H(X) + ln |det(W)| = – p(x) ln p(x) dx + p(x) ln |det J| dx x 1 x n y 1 y n Trans - formation J H(Y) = – p(y) ln p(y) dy dy = |det J| dx p(y(x)) = p(x) |det J| -1 H(Y) = ? H(Y) = H(Y(X)) y(x) = Wx J = W = – (p(x) |det J| -1 ) ln ( p(x) |det J| -1 ) |det J| dx Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS

ICA - Algorithmen 1b - Ziel : maximale Transinformation (Bell, Sejnowski 1995) zwischen Eingabe und Ausgabe Stoch. Gradientenaufstieg W( t+1 ) = W( t ) + ( – 2yx T ) Rechnung: 1-dim Fall ( Kap.3.4.1) Natürl.Gradient Amari 1985 = W = (t) W T W = ( I – 2yz T ) W Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS R(w) = H(X) + p(x) ln |det J|dx mit J = Mit nicht-lin. Ausgabe y, z.B. y = tanh(z): W(t+1) = W(t) + ( I – 2yz T ) W

Frage Wodurch unterscheiden sich die beiden Algorithmen hauptsächlich? a)garnicht b)im Ergebnis c)in den Zielfunktionen d)in den Zielen e)in der Konvergenzgeschwindigkeit Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS

KURTOSIS-METHODE Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Momente einer Zufallsvariablen x : i = x i, z.B. 1 = x Mittelwert Zentrale Momente einer Zufallsvariablen x: m k = (x- 1 ) k, z.B. m 2 = (x- 1 ) 2 Varianz Wölbungsmaß Kurtosis: kurt(x) = [ (x- 1 ) 4 -3m 2 2 ]/m 2 2 Statist. Momente und Kurtosis Supergaussian: Kurtosis > 0 Gaussian: Kurtosis = 0 Subgaussian: Kurtosis < 0

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS ICA-Algorithmen: Vorverarbeitungsfolge Zentrieren Mittelwertbildung, z.B. iterativ durch w 0 (t+1) = w 0 (t) - (w 0 -x), =1/t Weißen PCA durchführen: w i Eigenvektoren von C = xx T mit |w i |=1 und Eigenwerten i Gewichtsvektoren w i normieren zu w i / i 1/2. Dies führt zu y 2 = w i T xx T w i = w i T i w i = 1 Entmischen ICA Algorithmen, z.B. minimale Transinformation, maximale Kurtosis etc. Speziell: dekorrelierte x benötigen nur eine orthogonale Matrix W (Vereinfachung) M s1s2 sns1s2 sn x 1 x 2 x n x- x y1y2 yny1y2 yn B Quellenmix zentrieren weißen entmischen W x (x x

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Ziel: extremale Kurtosis (Delfosse, Loubaton 1995) Extrema bei s j = unabh. Komp, und z j = +/-1 kurt (y) = kurt (w T v) = kurt(w T Ms) = kurt (z T s) = ICA – Algorithmen 2 M s1s2 sns1s2 sn v 1 v 2 v n y1y2 yny1y2 yn Quellenmix zentrieren weißen entmischen W v i (v i v i Matrix Z

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS ICA – Algorithmen 2 Lernalgorithmus für einzelnes Neuron (Hyvarinen, Oja 1996) w (t+1) = (w T v) 3 v – 3 w Fixpunktalgorithmus mit |w| = 1 Ziel: extremale Kurtosis bei y = w T v R(w) = (w T v) 4 – 3 (w T v) 2 2 = min w w (t+1) = w (t) + grad R(w) = w (t) + 4 ( (w T v) 3 v – 3|w| 2 w ) Bei |w| = 1 ist die Richtung gegeben durch w (t+1) = ( (w T v) 3 v – w )

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS ICA – Algorithmen 2 Sequentielle Extraktion aller Komponenten Gegeben: Trainingsmenge {v(0)} w 1 (t+1) = (w 1 T v) 3 v – 3 w 1 mit |w 1 | = 1 Konvergenz zum 1. ICA-Vektor. Dann neue Trainingsmenge durch v(1) = v(0) – w 1 y 1 w 2 (t+1) = (w 2 T v) 3 v – 3 w 2 mit |w 2 | = 1 Konvergenz zum 2. ICA-Vektor, usw. Schnellere Konvergenz: Orthogonalisierung w i (t+1) = w i (t) - (w i w j ) w j j < i

Frage Wodurch ist die Reihenfolge der sequentiell ermittelten ICA-Komponenten bestimmt? Wodurch ist der Index i bei y 1,…,y i,…y n festgelegt? ANTWORT: Durch die Größe der Kurtosis der i-ten Komponente. Als Erstes wird die Komponente mit der größten Kurtosis ermittelt. Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS

Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS ICA-Anwendung: Audioanalyse Mix1 Mix2 Mix3 Mix4 speaker singer violin orchestra Mischung entmischte Quellen