Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Radiale Basis- funktionen AS2-5 Lernen in RBF-Netzen support vector-Maschinen Approximation & Klassifikation mit RBF Anwendung RBF-Netze.

Ähnliche Präsentationen


Präsentation zum Thema: "Radiale Basis- funktionen AS2-5 Lernen in RBF-Netzen support vector-Maschinen Approximation & Klassifikation mit RBF Anwendung RBF-Netze."—  Präsentation transkript:

1

2 Radiale Basis- funktionen AS2-5

3 Lernen in RBF-Netzen support vector-Maschinen Approximation & Klassifikation mit RBF Anwendung RBF-Netze

4 Radiale Basisfunktionen Motivation: lokale Cluster-Klassenbildung Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/ i = { x | S(|x–x i |) > w 0 }

5 Radiale Basisfunktionen DefinitionGlockenfunktionen Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/ Funktion S G mit den Eigenschaften S G (z) > 0, S G (– ) = S G ( ) = 0, 0 < < Es ex. ein a>0 mit S G (z) nicht anwachsend z [a, ), nicht abfallend z (–,a) Also ist S G (a) globales Maximum.

6 Glockenfunktionen Beispiele Kombination von Quetschfunktionen S G (x 1,..,x n ) = max ( 0, ) mit b (x i ) = Ableitungen von Quetschfunktionen S G (x) = Produkte von Glockenfunktionen S G (x 1,..,x n ) = S G (x 1 ) S G (x n ) allgemeine Radiale Basisfunktionen S G (x) = h(|x|),x n, h(.) streng monoton fallend aus Intervallen zusammengesetzte Funktionen S G (z) = (1– z 2 ) 2n im Intervall z [ –1,+1 ], sonst null. Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/

7 RBF-Netze Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/ Typisch:2-Schichten Netzwerk Aktivität nicht normiert f i ( x ) = wy kk k m 1 = wS kk k m ()x 1 mitS k ( c k, x ) = e k () cx normiert f i ( x ) = wy kk k m 1 = wS S kk k m j j m () () x x 1 1

8 Radiale Basisfunktionen Aktivität Normiertes RBF-Netzwerk Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/ y (x) = f(x) = i w i (x,c i ) mit Schicht 1 Schicht 2 · · · Normierung · · · X 1 x n S 1 ( X ) S n ( X ) y( X ) S i / /

9 Radiale Basisfunktionen Basisfunktionen maximaler Information (Entropie) H(p*) = max p H(p(x)) x, p*(x) = ? NB1: p(x) dx = 1 oder g 1 (x):= p(x)dx – 1 = 0 NB2: 2 = x 2 = - + p(x) x 2 dx oder g 2 (x):= - + p(x)x 2 dx – 2 = 0 Ansatz Lagrange-Funktion L(p, 1, 2 ) := H(p) + 1 g 1 (p) + 2 g 2 (p) = 0, = 0 (Rechnung Kap.5.2) Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/ Ergebnis p*(x) = A exp(–x 2 /2 2 ) Gauß'sche Glockenkurve

10 Radiale Basisfunktionen Basisfunktionen maximaler Information (Entropie) H(p*) = max p H(p) x [0,1], p*(x) = ? NB: 0 1 p(x) dx = 1 oder g(x):= 0 1 p(x)dx – 1 = 0 ausreichende NB Ansatz Lagrange-Funktion L(p, ) := H(p) + g(p) = 0 =, = 0 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/ Ergebnis: p*(x) = const Uniforme Verteilung (Rechnung analog Kap.5.2)

11 y Transformation mit maximaler Information [-,+ ] x [0,1] Max. Information bei uniformer pdf ! Wie ? (Rechnung Anhang A.4) Wenn S(x) = p(x) ist H(y) = max. Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/ Einstellung von S(x) mittels w

12 Parzen Window - Methode Approximation durch Überlagerung von Basisfunktionen Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/ Rüdiger Brause: Adaptive Systeme, Institut für Informatik Perfekte Approximation bei abnehmender Breite, wobei

13 Parzen Window Approximation durch Überlagerung von Basisfunktionen Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/ Rüdiger Brause: Adaptive Systeme, Institut für Informatik

14 Normierung der Variablen Problem PCA etc. problematisch bei heterogenen Variablen, z.B. (x 1 [cm], x 2 [Pascal], x 3 [°C]) Welche Einheiten pro Dimension? Welche Relation sollen die Einheiten zueinander haben ? Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/

15 Normierung der Variablen Lösungeinheitliche Transformation aller Variablen durch Skalierung S, Drehung D, Verschiebung V Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/ x z = SDVx = Mx d 2 = z 2 = z T z = x T M T Mx d 2 = (x–c) T C –1 (x–c) Mahalanobis-Abstand RBF-Ausgabefunktion S G (x) = A exp( (x–c) T C –1 (x – c))

16 Klassifikation mit RBF-Netzen Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/ Beste Klassifizierung Suche Klasse i so, daß p( k |x) = max i p( i |x) Bayes-Klassifizierung Wir wissen: p( i |x) = Annahme: Gaußverteilte Abweichungen der x von den Klassenprototypen c i, alsop(c i,x) = A =: S(c i,x) Bayes-Klassifizierung mit NN: Suche Klasse k so, daß mit y i = y k = max i y i winner take all RBFSuche Maximum

17 Klassifikation mit winner-take-all Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/ Zwei-Schichten-Netzwerk Suche Klasse k so, dass mit f i = i w i y i f i = max k f k x 1 x 2 x n y 1 y 2 y n f 1 f 2 Suche Maximum der Aktivität Ein-Schicht-Netzwerk Suche Klasse k so, dass mit y i = S(c i,x) / j S(c j,x) y k = max i y i x 1 x 2 x n y 1 y 2 y n Lernen nur der Gewichte für y i bzw. f i

18 Lernen in RBF-Netzen support vector-Maschinen Approximation & Klassifikation mit RBF Anwendung RBF-Netze

19 Lernverfahren Ansätze Schichtweise Einzelanpassung Anpassen der ersten Schicht (Zentrum +Breite) Anpassen der zweiten Schicht (Gewichte) Gesamtanpassung, z.B. durch Backpropagation Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/

20 Anpassung der ersten Schicht Phasen 1. initiale Verteilung (Anzahl, Lage und Form) der Glockenfunktionen 2. iterative Adaption der RBF-Parameter an die Trainingsdaten Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/ Initiale Verteilung Bekannte Trainingsdaten Clustersuche, RBF-Zentren = Clusterzentren; RBF-Breite = Clusterstreuung Unbekannte Trainingsdaten Sukzessiver Netzaufbau Überdeckung durch Fehlerminimierung Überdeckung durch regelmäßiges Raster Clusteranalyse durch Kohonen-Netze

21 Anpassung der ersten Schicht Initiale Verteilung Sukzessiver, fehlerorientierter Netzaufbau Start mit einem Neuron Füge ein neues Neuron hinzu für jedes Beispiel mit hohem Fehler (Abweichung vom gewünschten Netz-Ausgabewert) Verändere die Parameter bei den Nachbarn so, daß der Fehler verringert wird (Einpassen des neuen Neurons) Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/ Das Netzwerk wächst solange, bis der Approximationsfehler auf das gewünschte Maß zurückgegangen ist.

22 Anpassung der ersten Schicht Initiale Verteilung Adaptiver und sukzessiver Netzaufbau für Abdeckung einer Testverteilung Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/

23 RBF-Probleme Sigmoidale Ausgabefkt auch für Extrapolation, RBF-Ausgabefkt nur für Intrapolation. Problem: Vorhersage durch untrainierte RBF-Neuronen Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/

24 Anpassung der zweiten Schicht Normiertes RBF-Netz Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/ y (x) = (x) = i w i v i mit v i = (x,c i ) Schicht 1 Schicht 2 · · · Normierung · · · X 1 x n S 1 ( X ) S n ( X ) y( X ) S i / / w (t) = w (t–1) – (t) (w T v– (x) ) Widrow-Hoff Lernregel

25 Anpassung der zweiten Schicht TLMSE: Eigenvektor fitting w(t) = w(t-1) – (t) y [x(t) w(t-1)y] negative Oja Lernregel mit Mittelwertskorrektur y = (x-x 0 ) T w Minimisierung der Entropie w(t) = w(t 1) – grad H(y(w)) Approximation von p(x) mit Parzen Windows: Rechnung w(t) = w(t 1) (y-y k ) (x x k ) Hebb'sche Regel Ausgabe y, frühere Ein/Ausgabe k Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/

26 Lernen in RBF-Netzen support vector-Maschinen Approximation & Klassifikation mit RBF Anwendung RBF-Netze

27 Gesamtanpassung Lernen mit Backpropagation Zielfunktion R(M) = (f (x,M) –F (x) ) 2 = r (x,M) 1.Schicht: Lernen der RBF-Koeffizienten M ij durch Gradientenalgorithmus M k ij (t+1) = M k ij (t) r(x,M k ) 2. Schicht: Standard, z.B. BP Klassifikation durch support vector-Maschinen Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/

28 Gesamtanpassung: nicht-lin. Separierung Klassifikation Idee: Verwenden von RBF für lineare Separierung Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/ Hyperfläche x 2 x 1 Hyperebene z 2 z 1 Einbettung

29 Gesamtanpassung: Einbettung Einbettung in einen Hyperraum ZielKlassifikation mit linearer Separierung f i (z) = sgn(w i T z + b) = MittelEinbettungsfunktion finden: Muster x z, Prototyp c i w f i (x) = sgn( (c i ) T x) + b) = = sgn( K(c i,x) + b) mit K(c i,x) = (c i ) T x) kernel function nicht notwendig, es reicht die skalare Funktion K(c i,x). Warum ? Beispiel ! Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/

30 Gesamtanpassung: Einbettung Mercers theorem Sei eine Funktion K(x,y) gegeben. Erfüllt sie die Bedingung > 0 für alle Funktionen g mit <, so wird sie positiv definierte Kernfunktion (positiv definite kernel) genannt und es gibt eine Funktion (x) mit K(x,y) = (x) T y), einem Skalarprodukt in einem hochdimensionalen Raum. Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/ Typische Kernfunktionen K(x,y) = Gaußfunktion K(x,y) = (x T y +1) d Polynom vom Grad d K(x,y) = tanh(x T y – ) Multi-layer-Perzeptron

31 Gesamtanpassung Ziel für lin. Separierung: Klassifikationsfehler minimieren R(a) = ½ |f a (z) – y| dp(z,y) kontinuierl. Fall R e (a) = 1/ N ½|f a (z i ) – y i | diskreter Fall beim Training mit N Mustern. Erreichbar im diskreten Fall mit Mindestwahrscheinlichkeit 1– R(a) < R e (a) + (, ) Vapnik 1979 mit (a,b) = bei beliebiger Klassifkation f a (z) und gegebener Diagnosevariabilität h Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/

32 Gesamtanpassung Diagnosevariabilität hVC-Dimension h = maximale Anzahl der Punkte, die durch die Diagnosemaschine auf 2 h Arten in zwei Klassen geteilt werden können. Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/ Beispielh = 3 Punkte, 2 3 =8 Diagnosearten möglich. h < 4 b a c A={}, B={a,b,c} A={a}, B={b,c} A={a,b}, B={c} A={a,c}, B={b} A B sowie 4 Möglichkeiten bei Umbenennung A B, B A

33 Gesamtanpassung: support vector machine Forderung für lin. Separierung Lege die Hyperebene so, dass sie maximalen Abstand zu allen Grenzpunkten hat | w T z i + b | = 1Mindestabstand = 1 f w,b (z i ) = sgn(w T z i + b) y i {+1,–1} Klassifizierung (w T z i + b) y i > 1 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/ (w T z i + b) y i > 1 – i Minimierung des strukturellen Risikos Schlupfvariable

34 Gesamtanpassung : support vector machine Ansatz support vector – Maschine Alle Muster sind in in einem Cluster: | z i –a | < r Kugelradius Endliche Beschreibung der Trennung |w| < A h < r 2 A Vapnik 1995 Reduzierung des Klassifizierungsfehlers durch Beschränkung von h Neues Ziel: Minimierung von T(w, i ) = ½ w 2 + mit NB g(w,i) = 1 – (w T z i + b)y i – i = 0 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/

35 Gesamtanpassung : support vector machine AnsatzLagrangefunktion L(w, 1,.., N ) = T(w, i ) + L = w – = 0 oder w = Bestimmung der i durch Maximierung von W( ) = – ½ w 2 quadrat. Optimierung mit NB i i und 0 i 0 : z i = Support-Vektoren Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/

36 Gesamtanpassung : support vector machine Ergebnis: Klassifizierung mit f(x) = sgn(w T z + b) = sgn( K(c i, x) +b ) 2-Schicht-RBF-Netz Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/ Beispiel Supportvektoren lin. Separierung entsprichtnicht-lin. Separierung

37 Lernen in RBF-Netzen support vector-Maschinen Approximation & Klassifikation mit RBF Anwendung RBF-Netze

38 support vector - Maschine Ergebnisse Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/ DatenKlassifikations-Fehlerrate US Postal Service Klass. RBF RBF mit SV Zentren Reine SV- Maschine Training (7291 Muster) 1,7 %0,0 % Test (2007 Muster) 6,7 %4,9 %4,2 % Frage: Warum ist diese Gegenüberstellung problematisch ?

39 Erkennen von 3D-Figuren Training Feste Figur x i aus 6 Punkten, Random-Projekt. auf 2D-Fläche Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/ P 1 P 2 P 4 P 3 P 6 P 5 Test Erkenne Figurtyp + Winkel und [0°,30°,60°,..,360°] [0°,30°,60°,..,180°] Poggio, Edelman 1990 M Trainingsmuster = M hidden units 6x12=78 Standardwinkel

40 Erkennen von 3D-Figuren Ergebnisse Erkennungsleistung Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/ Kodierung und Trainingszahl Abstand zum Objekt Bereichsgröße Ausgabefehler u. Bereichsgröße Würfel vs. Oktaeder bei 40 Trainingsmustern / RBFs


Herunterladen ppt "Radiale Basis- funktionen AS2-5 Lernen in RBF-Netzen support vector-Maschinen Approximation & Klassifikation mit RBF Anwendung RBF-Netze."

Ähnliche Präsentationen


Google-Anzeigen