Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Adaptive Modellierung und Simulation Kapitel 2: Black-Box- Modellierung Rüdiger Brause.

Ähnliche Präsentationen


Präsentation zum Thema: "Adaptive Modellierung und Simulation Kapitel 2: Black-Box- Modellierung Rüdiger Brause."—  Präsentation transkript:

1

2 Adaptive Modellierung und Simulation Kapitel 2: Black-Box- Modellierung Rüdiger Brause

3 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Vorhersagemodelle

4 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Input-Output-Tabellen Beispiel

5 Nichtlin. Modellierung: RBF Lineare Modellierung Nichtlin. Modellierung: MLP Eigenschaften von NN R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Black-Box- Modellierung

6 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Lineare Approximation m Messungen f(x) x Modellierung als Gerade y = f(x) = y 0 + ax Beispiel: Ökonomie Konsum y = f(Einkommen x) = Konsumsockel + a  Einkommen

7 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Lineare Approximation - rauschfrei Parameterbestimmung 2 Messwerte y 1 (x), y 2 (x) reichen aus für a, y 0 RECHNUNG x,y,y 0 sind n-dim Vektoren, a eine n  n-Matrix m = n 2 +n Parameter  m Datenpunkte bei n Variablen nötig

8 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Lineare Approximation - verrauscht ParameterbestimmungRechnung aus Varianz und Kovarianz Modellierung als verrauschte Gerade y t = y 0 + ax t + u t ParameterbestimmungRechnung mittels Gauß-Methode R(a)  y t – f(a)) 2  t

9 Lineare Approximation - verrauscht R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Mehrere Variable Multiple Regression y(t) = f(x 1,x 2,…,x k ) = a 0 + a 1 x 1 + a 2 x 2 + … + a k x k + u Zusammenfassung zu y t = (1, x 1 (t), …, x k (t) ) (a 0, a 1, …, a k ) T + u t = xa T + u t. y = (y 1,…,y T ) T = Xa T + u T Zeilen für T Messungen, rang( X ) = k+1 ParameterbestimmungRechnung

10 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Lineare Approximation - verrauscht Minimaler mittlerer Abstand zur Gerade (Hyperebene) im Datenraum x = (y,x i ) b u  x d Hyperebene mit g(x*) = 0 a  = x* T u/|u|– b = x* T a – b Hessesche Normalform d = x T a – b = g(x) TLMSE = R(a,b) =  d 2  Rechnung: Minimum des TLMSE ( Kap.2.2)

11 TLMSE - Parameterschätzung Vorhanden: Messungen x = (y,x ~ ) Gesucht: Eigenvektor von C xx mit min. 1.Lösung: Fixpunktalgorithmus für EV a(t+1) = Ca(t),|a| = 1  EV mit max. EW Neuer Eingaberaum x‘ = x  aa T x, C x‘x‘ bilden, nächsten EV lernen. 2. Lösung: Anti-Hebb-Lernalgorithmus a (t) = a (t-1)  x(a T x), |a| = 1 Anti-Hebb Lernregel R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung

12 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Lineare Approximation - Grenzen Grenzen des linearen Modells  linearer Zusammenhang der Daten ? Linearisieren!  Parameter sind konstant (oder zeitabhängig?)  Einflüsse von x 1, x 2,... sind nur eingebildet ?

13 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Lineare Approximation - Grenzen Nichtlineare Modellierung: Beispiel Ökonomie Grossverdiener: Wer alles hat, kauft nichts mehr. Sigmoidaler Zusammenhang ist wahrscheinlicher: Einkommen x Konsum y

14 Linearisierung R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Linearisieren von nichtlin. Messungen  y = y 0 + ax 1/2 + u z = x 1/2  y(z) = y 0 + az + u  y = ax 1   x 2   e u („Cobb-Douglas-Produktion“) z = ln(y)  z(x) = ln a +  ln  x 1 +  ln x 2 + u = a 0 + a 1 x‘ 1 + a 2 x‘ 2 +u  nicht-lin. Kontext, z.B. „ männlich “ bei y = y 0 + ax 1 + u x 2 = 1 bei „männlich“, sonst null  y = y 0 + ax 1 + bx 2 + …+ u

15 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Lineare Approximation Parameter konstant ?  Schätzung liegt vor.  Parameter a i  0 ? Oder nur Störung ? Kriterium „erwartungswerttreu“ (unbiased)    (t)  t  a i aiai T1T1 p(â i ) T2T2 âiâi TT Kriterium „konsistent“  >0 p(â i ) aiai âiâi T1T1 T2T2 TT

16 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Lineare Approximation - Störterm Störterm  u t  = u 0  0 Was tun ? Mittelwert in Konstante verschieben: y t = (a 0 + u 0 ) + a 1 x 1 (t) + a 2 x 2 (t) + … + a k x k (t) + (u t – u 0 ) = á 0 + a 1 x 1 (t) + a 2 x 2 (t) + … + a k x k (t) + ú 0 Forderung : Keine Korrelation des Störterms mit den Variablen x ! cov (u t,u t’ | x t ) = 0  t,t’ = 1,…,T t  t’

17 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Lineare Approximation - Multikollinearität Test der Abhängigkeit der Variablen unter einander  Bilde Korrelationskoeffizienten r ij = =  Teste: Gilt r ij 2 > R 2 ? JA: Multikollinearität liegt vor!  Bilde Bestimmtheitsmaß R 2 = < + = 1

18 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung  Linksseitiger Test  Rechtsseitiger Test: Ist Prob( >p  ) <  JA: H 0 ok. Lineare Approximation Test der Einflüsse: Ist Variable x r nötig? Ist der Parameter a r = 0 ? Nullhypothese H 0 : a r = 0 0 p  p(â r ) â r -p  Verteilung der beobachteten Parameterwerte Hypothesentest auch für a r = s brauchbar!

19 Nichtlin. Modellierung: RBF Lineare Modellierung Nichtlin. Modellierung: MLP Eigenschaften von NN R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Black-Box- Modellierung

20 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung NichtLineare Approximation Polynomansatz ( Taylorentwicklung) f(x) = f(x 0 )+(x–x 0 )f (1) (x 0 )+(x–x 0 ) 2 f (2) (x 0 )/2 + (x–x 0 ) 3 f (3) (x 0 )/6+... = A + B(x–x 0 ) + C(x–x 0 ) 2 + D(x–x 0 ) x f(x) Direkte Bestimmung der Parameter aus den Messwerten

21 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung NichtLineare Approximation Polynomansatz mit Messfehlern f(x) = A + B(x–x 0 ) + C(x–x 0 ) 2 + D(x–x 0 ) x f(x) Indirekte Bestimmung der Parameter aus den Messwerten: Regression n-ter Ordnung, z.B. mit kleinstem quadr. Fehler

22 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Nichtlineare Approximation Einsatzarten  Adaptive Schätzung von Prozeßparametern Nicht-lin. Reaktionen, Produktionsoptimierung,...  Adaptive Kontrolle und Regelung Landekontrollsysteme, Roboterkontrolle,..  Adaptive Klassifikation Qualitätskontrolle, med. Diagnose, Bonitätsprüfung,.. Eingabe System Parameter Ausgabe Reale Welt

23 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Nichtlineare Approximation Eingabe System Parameter Ausgabe Reale Welt Einsatzgebiete  Echtzeitreaktionen z.B. Stahlwalzstraßen, Flugzeugsteuerung,..  Analytisch unbekannte Abhängigkeiten z.B. Polymerchemie, DNA-Schätzungen,..  Analytisch nicht zugängige Abhängigkeiten z.B. psychische Faktoren, ergebnisverändernde Messungen,..  Analytisch nur unter großem Aufwand bearbeitbare, hochdimensionale Gesetzmäßigkeiten z.B. Wechselkursabhängigkeiten,..  Statistische Analysen durch untrainierte Benutzer (?!)

24 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Was sind Neuronale Netze ? x 1 x 2 x 3 w 1 w 2 w 3 y z Akti- vierung Ausgabe (Axon) Gewichte (Synapsen) Eingabe (Dendriten) x = (x 1,...,x n ) w = (w 1,...,w n ) y = S(z) z = = w T x Quetschfunkion Radiale Basis- funktion Ausgabefunktionen Aktivierung

25 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung DEF Schicht Was sind Neuronale Netze ? Lineare Schicht y = (,…, ) T = W·x Matrixmultiplikation

26 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Backpropagation-Grundidee Schichtweise Verbesserung durch Rückführung des Fehlers Netzarchitektur und Lernen Eingabe 1.Schicht 2.Schicht Ausgabe x (1) y = x (2) y   (1) hidden units Ausgabe units L - y (2)

27 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Anwendung - NetTalk Sejnowsky-Rosenberg 1986 Automatisches System Text -> Sprache Vorläufer: DECtalk, 20 Mann-Jahre, 95% Genauigkeit NetTalk: 15 CPU-Stunden, 98% Genauigkeit Eingabe: Texte

28 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Anwendung - NetTalk Architektur Eingabe: 29 Zeichen, binär (26 Buchstaben+ 3Sonderzeichen: Pkt., Wortgrenze), 7 Buchstaben als Kontext. Hidden units: 80 Stück Ausgabe: 26 Merkmale, binär (23 Laut- und drei Artikulations- merkmale: Continuation, Wortgrenze, Stop)

29 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Anwendung - NetTalk Training  protokollierte, von Kindern gesprochenen Sätze,  zufallsmäßig eingegebene Worte eines Wörterbuchs aus Einträgen Eingabe x:Buchstabe eines Worts im Kontext Lehrervorgabe L(x): Phonologische Transkription Einfügen eines Sonderzeichens „Continuation“, wenn Buchstabe nicht gesprochen wird (!)

30 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Anwendung - NetTalk Ergebnisse: 3 Phasen des Sprachlernens  Zuerst wurden die Konsonanten und Vokale als Klassen getrennt. Innerhalb der Klassen blieben die Phoneme aber noch gemischt, so dass sich die Laute wie "Babbeln" anhörten.  Dann wurden die Wortgrenzen als Merkmale entwickelt, so dass "Pseudoworte" erkennbar wurden.  Zuletzt, nach ca. 10 Durchgängen pro Wort, entstand eine verständliche Sprache, die sich mit fortlaufender Erfahrung weiter verbesserte

31 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung NetTalk: Training Ergebnis Trennung der Konsonanten von Vokalen („Babbeln“) Entwicklung der Wortgrenzen („Pseudoworte“) Verständliche Sprache (10xTraining pro Wort) Training  transkribiertes Wörterbuch Einträge  Protokollierte Kindersätze Exponentieller Lernerfolg

32 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Backpropagation-Grundidee Zielfunktion minimieren Ziel = minimaler quadrat. Fehler R(w) =  ( L (x) -y (2) (x) ) 2  x = min w Wie erreichen?

33 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Lernen mit Zielfunktionen w ( t+1 ) = w ( t ) -  Lernregel Lernrate Gradientenalgorithmus zur Optimierung einer Zielfunktion W* w(t+1) w(t) R(w) Ableitung (Gradient)

34 Stochastisches Lernen Lernen mit Zielfunktion R(w) =  R x (w,x)  x w (t) = w (t-1) -  (t)  w R x ( w (t-1 ) ) wird ersetzt durch Lernen mit stochast. Zielfunktion R x (w,x) w (t) = w (t-1) -  (t)  w R x (w (t-1 ),x (t) ) stochastisches Lernen Wieso darf man das?

35 Stochastische Approximation Gesucht: Nullstelle einer stochast. Funktion f(x,w) = R x ‘(x,w) F(w) a|w-w*| + b w*w f (x, w ) Methode 2: Einfach f(x,w) verwenden Robbins, Monro 1951 Methode 1: Alle Ereignisse x abwarten und dann F(w) =  f(x,w)  x bilden w(t) = w( t-1 ) –  (t) F(w( t-1 )) w(t) = w( t-1 ) –  (t) f(w( t-1 ),x(t)) stochastische Approximation

36 Voraussetzungen das klein Gedruckte...  die Funktion F(w) :=  f(x,w)  x ist zentriert, d.h. F(w*) = 0  F(w) ist ansteigend, d.h. F(w w*) > 0  F(w) ist beschränkt mit |F(w)| 0  f(x,w) hat endliche Varianz, d.h.  2 (w) =  (F( w ) - f( x,w )) 2  x <    (t) verschwindet,  (t)    (t)  wird nicht zu schnell klein =    (t) wird nicht zu groß Stochastische Approximation 2 <  Dann ex.  (w(t) – w*) 2  = 0 mittl. quadr. Konvergenz Robbins-Monro P( w(t) = w*) = 1 Blum

37 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Backpropagation-Lernregel letzte Schicht Lernziel: R(w*) = min  (y (x,w) - L (x) ) 2  x min. mittl. quadr. Fehler w i ( t+1 ) = w i ( t ) -  Gradienten-Lernregel w i ( t+1 ) = w i ( t ) -  (y (w i ) -L (x) ) stoch. Approximation Rechnung: Ableitung der Zielfunktion

38 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Backpropagation-Lernregel letzte Schicht Lernziel: R(w*) = min E(y(w) - L(x)) 2 min. mittl. quadr. Fehler w i ( t+1 ) = w i ( t ) -  Gradienten-Lernregel w i ( t+1 ) = w i ( t ) -  (y(w i )-L(x)) stoch. Approximation mit =  i := - (y(w i )-L(x)) S‘(z)  w ij (x) =   i x j Delta-Regel

39 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Fehler-Backpropagation Beeinflussung voriger Schichten z i (1)  R Delta-Regel für Schicht 1

40 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Online vs Offline-Lernen ONLINE-Learning: WHILE NOT Abbruchbedingung erfüllt: Delta := 0 FORALL Trainingsmuster x berechne Delta(W(x)) W(t) := W(t-1) + Delta // Lernen mit jedem Muster END FOR END WHILE

41 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Online vs Offline-Lernen OFFLINE-Learning: WHILE NOT Abbruchbedingung erfüllt: GesamtDelta := 0 FORALL Trainingsmuster x berechne Delta(W(x)) GesamtDelta := GesamtDelta + Delta(W(x)) END FOR W(t) := W(t-1) + GesamtDelta // Lernen am Schluss! END WHILE

42 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Arten des Lernens: Beispiel Buchstabenerkennung Überwachtes Lernen Eingabe H ! Gewichte Fehler ? On-line learning (Training) E ?..., H,... Testmenge E Ergebnis off-line learning Trainings- menge A, B, C, D, E, F,..., Z. Lernziel (Zielfunktion) Lernziel (Zielfunktion) Lehrer Neuronales System A, B, C, D, E, F,..., Z. W W

43 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Backpropagation- Code REPEAT (* jeweils einen Trainingszyklus *) dw1:=0.0; dw2:=0.0;  :=0.1; REPEAT (* Für alle Trainingsmuster im PatternFile *) Read( PatternFile,x1,L); (*Einlesen der Eingabe, Ausgabe *) (* Ausgabe errechnen *) FOR i:=1 TO p DO x2[i]:= S(z(w1[i],x1)) END (* Für hidden units *) FOR i:=1 TO m DO (* Für alle Ausgabeneuronen*) y2[i]:= S(z(w2[i],x2)) d2[i]:= -(y2[i]-L[i])*(1-y2[i])*y2[i] (* (y-L)(1-S)S *) END FOR i:=1 TO m DO (* Gewichtsveränderungen in 2. Schicht *) FOR j:=1 TO p DO dw2[i,j] := dw2[i,j] +  *d2[i]*x2[j] END; END FOR i:=1 TO p DO (* Gewichtsveränderungen in 1. Schicht *) FOR j:=1 TO n DO (* Für alle Eingabemusterkomp.*) dw1[i,j] := dw1[i,j]+  *SumProd(i,m,d2,w2)*(1-x2[i])*x2[i]*x1[j] END; END UNTIL ( EOF( PatternFile)) w1:=w1+dw1; w2:=w2+dw2; (* Korrektur der Gewichte *) UNTIL Fehler_klein_genug Frage: Offline- oder Online-Lernen?

44 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Lernen - Probleme Die Konvergenz ist relativ langsam, besonders bei mehreren Schichten Das System kann in einem lokalen Optimum "stecken" bleiben Trotz guter Trainingsleistung zeigt der Test schlechte Ergebnisse

45 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Verbesserungen des BP-Algorithmus Problem Trotz guter Trainingsleistung zeigt der Test schlechte Ergebnisse f(x) x testsamples trainingsamples Überanpassung (overfitting) !

46 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Verbesserungen des BP-Algorithmus Lösung:Stopped Training

47 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Initialisierung der Neuronengewichte Lin. Approximation (1. Glied Taylorentwicklung) Beispiel: n-p-n Netz Kodierer y = B pxn A nxp x Min. quadr. Fehler bei globalem Minimum  A = ? n p n A B Beispiel Informationskompression

48 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS R(W) = min  (x- ) 2  least mean squared error (LMSE) Transformation mit minimalem MSE Allgemeine Situation. · · · l i n. T r a n s f o r m a t i o n W x x 1 x n X { y }.. 1 y m y Y m+1.. Y n Wann minimal ?

49 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Transformation mit minimalem MSE Was ist die beste Schätzung für die Konstanten c i ? min R(c i ) = ?Rechnung! R(W) = min  (x- ) 2  least mean squared error (LMSE) Minimaler Rekonstruktionsfehler Bei welchen Basisvektoren w i ist der Fehler minimal ? min R(w i ) = ? Rechnung! y i = x T w i + x = + =

50 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Analyse der Neuronengewichte Hauptkomponentenanalyse Lin. Approximation (1. Glied Taylorentwicklung) A besteht aus Eigenvektoren der Kovarianzmatrix n p n A B C xx =  (x-  x  )(x-  x  ) T  (C ij ) = globales Minimum Sattelpunkte = EV R(w) w w*

51 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Normierung der Eingangsvariablen Problem: unterschiedliche Skalierungen z.B. x 1 : Weg in [m] x 2 : Grösse in [cm] x 3 : Gewicht in [kg] x 4 : Farbwert in [RGB-Zahl] Normierung aller numerischen Werte auf gleiche Skala !  Gleichen Mittelwert, etwa  x  = 0  Gleiche Varianz  = 1

52 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Normierung der Eingangsvariablen Abstände bilden nur mit normierten Variablen Mahalanobis-Abstand d 2 = (x – c) T C –1 (x – c) = (x – c) T M T M(x – c) Entspricht einer Skalierung, Drehung, Verschiebung mit x  Mx = SDVx mit x  (x T,1) T S =D = V =

53 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Verbesserungen des BP-Algorithmus Problem  w ij (x) =   i x j =  (..)S‘(z i ) x j Die Konvergenz ist relativ langsam, besonders bei mehreren Schichten Problem Ausgabefunktion Bei Wahl von S = Fermifunktion ist die Ableitung eine Glocken- Funktion mit S‘(-  ) = 0 = S‘(  ) und damit bei sehr großem oder kleinem x  (x) = 0  Kein Lernen mehr möglich! S(z) S‘(z)

54 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Problem Ausgabefunktion Abhilfen: Andere Ausgabefunktion wählen (z.B. Sinus) Andere Zielfunktion wählen (Information statt quadr.Fehler) Andere Lernfunktion wählen, z.B. Ergänzung durch Backpropagation Trägheitsmoment  (t+1) =  (t) + (1-  )  (t-1) z.B.  = 0.9

55 Nichtlin. Modellierung: RBF Lineare Modellierung Nichtlin. Modellierung: MLP Eigenschaften von NN R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Black-Box- Modellierung

56 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/ Klassifikation und RBF Motivation: lokale Cluster-Klassenbildung  i = { x | S(|x–x i |) > w 0 } wowo xixi

57 Bessere Klassifikation durch gekrümmte Entscheidungsgebiete Idee: Nichtlineare Abbildung in neuen Raum, in dem die Muster (mit höherer Wahrscheinlichkeit) linear separierbar sind Eingaberaum (xy-Koordinaten) Neuer Raum (Punkte der Gauß-Funktionswerte) Trennende Hyperebene (hier: Schwellwert im 1-Dim.) Funktionswert erste Gaußfunktion Funktionswert der nächsten Gaußfunktion usw. Gaußfunktion Klassifikation und RBF R.Brause, Institut für Informatik

58 Rüdiger Brause: Adaptive Systeme, Institut für Informatik Radiale Basisfunktionen DefinitionGlockenfunktion Funktion S G mit den Eigenschaften S G (z) > 0, S G (–  ) = S G (  ) = 0, 0 < <  Es ex. ein c>0 mit S G (z) nicht anwachsend  z  [c,  ), nicht abfallend  z  (– ,c) Also ist S G (c) globales Maximum. c

59 RBF maximaler Information Welche Basisfunktionen hat maximale Information ? H(p*) = max p H(p(x)) x  , p*(x) = ? NB1:  p(x) dx = 1 oder g 1 (x):=  p(x)dx – 1 = 0 NB2:  2 =  x 2  = -∞  +∞ p(x) x 2 dx oder g 2 (x):= -∞  +∞ p(x)x 2 dx –  2 = 0 Ansatz Lagrange-Funktion L(p,  1,  2 ) := H(p) +  1 g 1 (p) +  2 g 2 (p) = 0, = 0 (Rechnung Kap.5.2) Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/ Ergebnis p*(x) = A exp(–x 2 /2  2 ) Gauß'sche Glockenkurve

60 Parzen Window - Methode Approximation durch Überlagerung von Basisfunktionen Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/ Perfekte Approximation bei abnehmender Breite , wobei

61 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung RBF-Netze Typisch:2-Schichten Netzwerk Aktivität nicht normiert f i ( x ) = wy kk k m   1 = w S kk k m ()x   1 mitS k ( c k, x ) = e k -- () cx s normiert f i ( x ) = wy kk k m =  1 = wS S kk k m j j m () () x x = =   1 1

62 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/ RBF-Netze Aktivität Normiertes RBF-Netzwerk y (x) = f(x) =  i w i (x,c i ) mit Schicht 1 Schicht 2 · · · Normierung · · · X 1 x n S 1 ( X ) S n ( X ) y( X )  S i / /  

63 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Klassifikation mit RBF-Netzen Beste KlassifizierungBayes-Klassifizierung Suche Klasse  i so, daß p(  i |x) = max k p(  k |x) Wir wissen: p(  i |x) = Situation: Gaußvert. Abweichg. vom Klassenprototypen c i : p(x|c i ) = A = S(c i,x) Bayes-Klassifizierung mit NN: Seien alle Klassen gleichwahrscheinlich p(  i ) = 1/m Suche Klasse i so, dass mit y i = S(c i,x)  k S(c k,x) y i = max k y k winner take all RBF Suche Maximum

64 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Klassifikation mit winner-take-all Zwei-Schichten-Netzwerk (mehrere Cluster = 1 Klasse) Suche Klasse i so, dass mit f i =  i  w i y i f i = max k f k x 1 x 2 x n y 1 y 2 y n f 1 f 2 Suche Maximum der Aktivität Ein-Schicht-Netzwerk (1 Cluster = 1 Klasse) Suche Klasse i so, dass mit y i = S(c i,x) /  S(c k,x) y i = max k y k x 1 x 2 x n y 1 y 2 y n  Lernen nur der Gewichte für y i bzw. f i

65 Frage Was ist das Ziel der Bayes-Klassifikation? Antwort 1.Die minimale Fehlerwahrscheinlichkeit 2.Die maximale bedingte Wahrscheinlichkeit für eine Entscheidung 3.Die minimale Abweichung vom korrekten Wert 4.Die maximale Korrelation mit dem korrekten Wert Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/

66 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung RBF- Lernen Lernmethode: Einzelne Anpassung der Schichten  Anpassen der 1. Schicht: Lage c i und Varianz C  Anpassen der 2. Schicht: Gewichte w j Pro: schneller, da weniger komplex Contra: Suboptima möglich Lernmethode: Gleichzeitige Anpassung beider Schichten z.B. mit Backpropagation Pro: Globales Optimum leichter erreichbar Contra: langsam, mehr Daten für gegebenen max. Fehler nötig

67 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung RBF- Lernen: 1.Schicht Bekannte Trainingsdaten  Festlegen der RBF-Zentren und Weiten durch Clusterung (k- mean, Kohonen-Netze,...)  Initiale Festlegung der Anzahl der Zentren, Iterative Verbesserung von Lage und Weite durch sequentielles Training Unbekannte Daten  Feste Unterteilung des Eingaberaumes, z.B. Netz potentieller Zentren bei uniformer, fester Weite für Datenbereich  Inkrementeller Aufbau des Netzes: Sequentielle Regression

68 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung RBF-Lernen : 1.Schicht k-means-Clusterung Wähle k zufällige Muster x j  A als Clusterzentren c j, bilde C j = {c j } REPEAT Ordne alle x i  A zu den nächstgelegenen Clusterzentren zu: Suche für x i das Cluster c z so, dass |x i -c z | = min k |x i -c k |, und füge x i zu C z zu. Entferne alle Cluster i mit |C i | < 1 Bilde für jedes Cluster k ein neues Zentrum c k =  x  als Mittelwert aller Muster in C k UNTIL Iterationszahl > Max

69 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung RBF- Lernen : 1.Schicht Feste Unterteilung

70 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung RBF- Lernen : 1.Schicht Adaptive Unterteilung

71 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung RBF-Lernen Erstellen der 1. Schicht: Sequentielle Regression Start mit einem Neuron Füge ein neues Neuron hinzu für jedes Beispiel mit hohem Fehler (Abweichung vom gewünschten Netz- Ausgabewert) Verändere die Parameter bei den Nachbarn so, dass der Fehler verringert wird (Einpassen des neuen Neurons) Das Netzwerk wächst solange, bis der Approximationsfehler auf das gewünschte Maß zurückgegangen ist.

72 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung RBF-Lernen 2. Schicht: Fehlerminimierung MSE der lin. Schicht z.B. mit Backpropagation-Lernen 2. Schicht  w i = –  (y i – L i ) x Gewichte von S k zu Ausgabe i x := (S 1,..,S n ) und w := (w 1,..,w n ) oder: TLMSE w i (t+1) = w i (t)   1 xy i und |w i (t+1) | = 1 Anti-Hebb Lernen x := (S 1,..,S n,L i ) und w := (w 1,..,w n,w n+1 ) oder: Konkurrenz-Lernen y c = max i y i  w c = –  (y c – L c ) x Gewichte von S k zu Ausgabe c

73 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Anwendung: Industriereaktor Chem. Synthese eines Polymers Kettentrans- feragent MMA VAc Initiator Lsgsmittel Inhibitor Kältemittel Kopolymer Nicht-reag. Zutaten Lsgsmittel Temperatur Eingabe Ausgabe

74 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Inputgenerierung Strategie RUS: Random uniform sampling Ausgabe Eingabe Strategie RDS: Random distributed sampling Ausgabe Eingabe

75 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Ergebnisse Schmale vs. breite RBF

76 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Ergebnisse K-means Clusterung vs. Sequ. Regression

77 Nichtlin. Modellierung: RBF Lineare Modellierung Nichtlin. Modellierung: MLP Eigenschaften von NN R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Black-Box- Modellierung

78 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Approximationsleistungen Neuronaler Netze Allgemeine Eigenschaften von NN  Kann man jede beliebige Funktion approximieren?  Wenn ja, mit welcher Architektur ?  Wie viele Schichten benötigt man ?  Wie viele Neuronen pro Schicht braucht man ?

79 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Fähigkeiten: Nomenklatur Mehrschichtennetze x 1 x 2 x n y 1 y 2 y n f 1 f 2 Eingabeschicht hidden units Ausgabeschicht

80 R.Brause, Adaptive Modellierung: Kap.2 Black-Box- Modellierung Approximationsleistungen Neuronaler Netze Voraussetzungen  Sigma-Funktionen (2-Schicht. NN) := { mit wobei w j (2) aus , x aus  n, und z j  z n := { z | z(x) = w (1)T x + b } affine Funktionen  n 

81 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Approximationsleistungen Neuronaler Netze Für die Funktionswerte jeder beliebigen Funktion f(x) :  n  von N Mustern x 1.. x N gibt es eine Sigma-Funktion f, so dass für alle Muster x i mit i = 1..N gilt = f(x i ) punktweise Übereinstimmung Aussage 1 (diskrete Punkte) Hornik, Stinchkombe, White 1989

82 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Aussage 2 (stetige Funktionen) nicht-linear linear Approximationsleistung Neuronaler Netze x 1 x 2 x n y 1 y 2 y n f 1 f 2 Eingabe z.B. DNA, Patienten- daten, Roboter- sensoren Ausgabe z.B. Struktur, Diagnose, Roboter- bewegung Ein 2-Schichtennetzwerk mit nicht-linearer Ausgabefunktion S(z) kann JEDE beliebige Funktion beliebig dicht approximieren, wenn genügend Neuronen ex.

83 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Fähigkeiten der Multilayer-Netzwerke Satz Jede beliebige, stetige Funktion f(x) in einem kompakten Intervall ("kompakte Teilmenge des  n ") kann beliebig dicht (uniform dicht im Sinne der L s -Norm in der Menge C n aller stetigen Funktionen und  p - dicht in der Menge der Borel meßbaren Funktionen) durch eine Sigma- Funktion F(x) approximiert werden Anmerkung: Gilt auch für S = stetig, begrenzt, nicht-konstant (RBF)

84 R.Brause, Adaptive Modellierung: Kap.2 Black-Box-Modellierung Fähigkeiten der Multilayer-Netzwerke Frage : Wieviel Schichten muss ein Netzwerk mindestens haben, um eine beliebige Funktion beliebig gut zu approximieren? ? Antworten: eine zwei drei unendlich viele


Herunterladen ppt "Adaptive Modellierung und Simulation Kapitel 2: Black-Box- Modellierung Rüdiger Brause."

Ähnliche Präsentationen


Google-Anzeigen