Radiale Basis-funktionen

Slides:



Advertisements
Ähnliche Präsentationen
Präsentiert von Torben Pastuch
Advertisements

Perceptrons and the perceptron learning rule
Adaptive Systeme Prof. Rüdiger Brause WS 2011.
Gruppenwettbewerb. Gruppenwettbewerb Aufgabe G1 (8 Punkte)
Algebraische Zahlen: Exaktes Rechnen mit Wurzeln
Streuung Bezeichnung Streuung=Dispersion=Variabilität Fragestellung:
Fachreferat in Mathematik
Genetische Algorithmen für die Variogrammanpassung
Seminar „Extrapolationsmethoden für zufällige Felder“
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
Adaptive Systeme Prof. Rüdiger Brause WS 2009.
Konkurrentes Lernen AS-1
Lernen und Klassifizieren AS-2
Adaptive lineare Transformationen AS-2
Adaptive lineare Transformationen AS-1
Algorithmentheorie 04 –Hashing
WS Algorithmentheorie 02 - Polynomprodukt und Fast Fourier Transformation Prof. Dr. Th. Ottmann.
Kapitel 6 Differenzierbarkeit. Kapitel 6: Differenzierbarkeit © Beutelspacher Juni 2005 Seite 2 Inhalt 6.1 Die Definition 6.2 Die Eigenschaften 6.3 Extremwerte.
Grundkurs Theoretische Informatik, Folie 2.1 © 2006 G. Vossen,K.-U. Witt Grundkurs Theoretische Informatik Kapitel 2 Gottfried Vossen Kurt-Ulrich Witt.
K. Desch - Statistik und Datenanalyse SS05
Astronomisch, Physikalische und Mathematische Geodäsie II
Institut für Angewandte Mikroelektronik und Datentechnik Fachbereich Elektrotechnik und Informationstechnik, Universität Rostock Programmierung eingebetteter.
zur Vorlesung Neuronale Netzwerke
Kennlinie Lichtregelung in JavaNNS Version 1.1
Rechneraufbau & Rechnerstrukturen, Folie 12.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 12.
Neuronale Netze (Mitchell Kap. 4)
Machine Learning KNN und andere (Kap. 8).
Machine Learning Was wir alles nicht behandelt haben.
Vielstoffthermodynamik
Materialien zum Informatikunterricht (Pohlig-Häberle)
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Lernen und Klassifizieren AS2-2
Adaptive lineare Transformationen AS-1
Adaptive Systeme Prof. Rüdiger Brause WS 2013.
Adaptive lineare Transformationen AS2-3 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Lineare Schichten Sequenz linearer Schichten.
Adaptive lineare Transformationen AS1-3
Radiale Basis-funktionen AS1-5
Lernen und Klassifizieren AS1-2
Adaptive Systeme-2 Grundlagen
Adaptive Systeme-2 Prof. Rüdiger Brause WS 2011 Organisation Einführung in adaptive Systeme B-AS-1, M-AS-1 Vorlesung Dienstags Uhr, SR9 Übungen.
Evolutionäre Algorithmen AS1-7
Adaptive lineare Transformationen AS-2
Lernen und Klassifizieren AS2-2
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Hartmut Klauck Universität Frankfurt SS
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
Polynome und schnelle Fourier-Transformation


Statistik: Mehr zur Regression.
Analyse von Ablaufdiagrammen
Vorlesung Mai 2000 Konstruktion des Voronoi-Diagramms II
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Multivariate Statistische Verfahren
Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.
Klassifikation und Regression mittels neuronaler Netze
1 Mathematical Programming Nichtlineare Programmierung.
Nichtlineare Fisher-Diskriminanzanalyse
Evolutionäre Algorithmen AS1-7
Nichtlineare Optimierung
Institut für Informationssysteme Technische Universität Braunschweig Institut für Informationssysteme Technische Universität Braunschweig Verdrängung von.
Adaptive Modellierung und Simulation Kapitel 2: Black-Box- Modellierung Rüdiger Brause.
Geoinformationssysteme
EIN NEUES ENSEMBLE- KLASSIFIKATIONSVERFAHREN Tim Schneider Rotation Forest.
PCA Principal Component Analysis. Gliederung PCA – Warum eigentlich? PCA – Was ist zu tun? Was passiert eigentlich? Anwendungen Zusammenfassung.
Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.
 Präsentation transkript:

Radiale Basis-funktionen

& Klassifikation mit RBF Approximation & Klassifikation mit RBF Lernen in RBF-Netzen support vector-Maschinen Anwendung RBF-Netze

Radiale Basisfunktionen Motivation: lokale Cluster-Klassenbildung i = { x | S(|x–xi|) > w0} Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14

Radiale Basisfunktionen Definition Glockenfunktionen Funktion SG mit den Eigenschaften SG(z) > 0, SG(–) = SG() = 0, 0 < <  Es ex. ein a>0 mit SG(z) nicht anwachsend z [a,), nicht abfallend z (–,a) Also ist SG(a) globales Maximum. Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14

Glockenfunktionen Beispiele Kombination von Quetschfunktionen SG(x1,..,xn) = max ( 0, 1+ -1 ) mit b(xi) = Ableitungen von Quetschfunktionen SG (x) = Produkte von Glockenfunktionen SG(x1,..,xn) = SG(x1) ×× SG(xn) allgemeine Radiale Basisfunktionen SG(x) = h(|x|), x n , h(.) streng monoton fallend aus Intervallen zusammengesetzte Funktionen SG(z) = (1–z2)2n im Intervall z[–1,+1], sonst null. Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14

å å RBF-Netze Typisch: 2-Schichten Netzwerk Aktivität e nicht normiert ( x ) = w y k m = å 1 S ) mit c , e - 2 s normiert f i ( x ) = w y k m = å 1 S j ) Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14

Radiale Basisfunktionen Aktivität Normiertes RBF-Netzwerk Schicht 1 Schicht 2 · N o r m i e u n g X 1 x S ( ) y / W y (x) = f(x) = i wi (x,ci) mit Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14

Radiale Basisfunktionen Basisfunktionen maximaler Information (Entropie) H(p*) = maxp H(p(x)) x  , p*(x) = ? NB1:  p(x) dx = 1 oder g1(x):=  p(x)dx – 1 = 0 NB2: 2 = x2= -∞+∞p(x) x2 dx oder g2(x):= -∞+∞p(x)x2dx – 2= 0 Ansatz Lagrange-Funktion L(p, 1,2) := H(p) + 1g1(p) + 2g2(p) = 0, = 0 (Rechnung Kap.5.2) Ergebnis p*(x) = A exp(–x2/22) Gauß'sche Glockenkurve Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14

Radiale Basisfunktionen Basisfunktionen maximaler Information (Entropie) H(p*) = maxp H(p) x  [0,1], p*(x) = ? NB: 01p(x) dx = 1 oder g(x):= 01p(x)dx – 1 = 0 ausreichende NB Ansatz Lagrange-Funktion L(p,) := H(p) + g(p) = 0 = , = 0 (Rechnung analog Kap.5.2) Ergebnis: p*(x) = const Uniforme Verteilung Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14

Transformation mit maximaler Information [-,+]  x  [0,1] Max. Information bei uniformer pdf ! Wie ? (Rechnung Anhang A.4) Wenn S‘(x) = p(x) ist H(y) = max. y Einstellung von S(x) mittels w Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14

Parzen Window - Methode Approximation durch Überlagerung von Basisfunktionen Perfekte Approximation bei abnehmender Breite s, wobei Rüdiger Brause: Adaptive Systeme, Institut für Informatik Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14

Parzen Window Approximation durch Überlagerung von Basisfunktionen Rüdiger Brause: Adaptive Systeme, Institut für Informatik Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14

Normierung der Variablen Problem PCA etc. problematisch bei heterogenen Variablen, z.B. (x1 [cm], x2[Pascal], x3 [°C]) Welche Einheiten pro Dimension? Welche Relation sollen die Einheiten zueinander haben ? Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14

Normierung der Variablen Lösung einheitliche Transformation aller Variablen durch Skalierung S, Drehung D, Verschiebung V x z = SDVx = Mx d2 = z2 = zTz = xTMTMx d2 = (x–c)TC–1(x–c) Mahalanobis-Abstand RBF-Ausgabefunktion SG(x) = A exp((x–c)TC–1(x–c)) Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14

Klassifikation mit RBF-Netzen Beste Klassifizierung Suche Klasse wi so, daß p(wk|x) = maxi p(wi|x) Bayes-Klassifizierung Wir wissen: p(wi|x) = Annahme: Gaußverteilte Abweichungen der x von den Klassenprototypen ci, also p(ci,x) = A =: S(ci,x) Bayes-Klassifizierung mit NN: Suche Klasse wk so, daß mit yi = yk = maxi yi winner take all RBF Suche Maximum Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14

Klassifikation mit winner-take-all Suche Maximum der Aktivität Ein-Schicht-Netzwerk Suche Klasse k so, dass mit yi = S(ci,x) / Sj S(cj,x) yk = maxi yi x 1 2 n y Zwei-Schichten-Netzwerk Suche Klasse k so, dass mit fi = Si wiyi fi = maxk fk x 1 2 n y f  Lernen nur der Gewichte für yi bzw. fi Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14

& Klassifikation mit RBF Approximation & Klassifikation mit RBF Lernen in RBF-Netzen support vector-Maschinen Anwendung RBF-Netze

Lernverfahren Ansätze Schichtweise Einzelanpassung Anpassen der ersten Schicht (Zentrum +Breite) Anpassen der zweiten Schicht (Gewichte) Gesamtanpassung, z.B. durch Backpropagation Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14

Anpassung der ersten Schicht Phasen initiale Verteilung (Anzahl, Lage und Form) der Glockenfunktionen iterative Adaption der RBF-Parameter an die Trainingsdaten Initiale Verteilung Bekannte Trainingsdaten Clustersuche, RBF-Zentren = Clusterzentren; RBF-Breite = Clusterstreuung Unbekannte Trainingsdaten Sukzessiver Netzaufbau Überdeckung durch Fehlerminimierung Überdeckung durch regelmäßiges Raster Clusteranalyse durch Kohonen-Netze Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14

Anpassung der ersten Schicht Initiale Verteilung Sukzessiver, fehlerorientierter Netzaufbau Start mit einem Neuron Füge ein neues Neuron hinzu für jedes Beispiel mit hohem Fehler (Abweichung vom gewünschten Netz-Ausgabewert) Verändere die Parameter bei den Nachbarn so, daß der Fehler verringert wird (Einpassen des neuen Neurons) Das Netzwerk wächst solange, bis der Approximationsfehler auf das gewünschte Maß zurückgegangen ist. Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14

Anpassung der ersten Schicht Initiale Verteilung Adaptiver und sukzessiver Netzaufbau für Abdeckung einer Testverteilung Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14

RBF-Probleme Sigmoidale Ausgabefkt auch für Extrapolation, RBF-Ausgabefkt nur für Intrapolation. Problem: Vorhersage durch untrainierte RBF-Neuronen Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14

Anpassung der zweiten Schicht Normiertes RBF-Netz Schicht 1 Schicht 2 · N o r m i e u n g X 1 x S ( ) y / W y (x) = (x) = i wivi mit vi = (x,ci) w(t) = w(t–1) – (t)(wTv– (x)) Widrow-Hoff Lernregel Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14

Anpassung der zweiten Schicht TLMSE: Eigenvektor fitting w(t) = w(t-1) – (t) y [x(t)  w(t-1)y] negative Oja Lernregel mit Mittelwertskorrektur y = (x-x0)Tw Minimisierung der Entropie w(t) = w(t-1) – g grad H(y(w)) Approximation von p(x) mit Parzen Windows: Rechnung w(t) = w(t-1) - g(y-yk) (x - xk) Hebb'sche Regel Ausgabe y, frühere Ein/Ausgabe k Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14

support vector-Maschinen Approximation & Klassifikation mit RBF Lernen in RBF-Netzen support vector-Maschinen Anwendung RBF-Netze

Gesamtanpassung Lernen mit Backpropagation Zielfunktion R(M) = (f(x,M)–F(x))2 = r(x,M) 1.Schicht: Lernen der RBF-Koeffizienten Mij durch Gradientenalgorithmus Mkij(t+1) = Mkij(t)   r(x,Mk) 2. Schicht: Standard, z.B. BP Klassifikation durch support vector-Maschinen Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14 - 26 -

Gesamtanpassung: nicht-lin. Separierung Klassifikation Idee: Verwenden von RBF für lineare Separierung Hyperfläche x 2 1 Hyperebene z 2 1 Einbettung Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14

Gesamtanpassung: Einbettung Einbettung in einen Hyperraum Ziel Klassifikation mit linearer Separierung fi(z) = sgn(wiTz + b) = Mittel Einbettungsfunktion  finden: Muster x  z, Prototyp ci  w fi(x) = sgn((ci)T(x) + b) = = sgn( K(ci,x) + b) mit K(ci,x) = (ci)T(x) kernel function  nicht notwendig, es reicht die skalare Funktion K(ci,x). Warum ? Beispiel ! Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14

Gesamtanpassung: Einbettung Mercer‘s theorem Sei eine Funktion K(x,y) gegeben. Erfüllt sie die Bedingung > 0 für alle Funktionen g mit < , so wird sie „positiv definierte Kernfunktion“ (positiv definite kernel) genannt und es gibt eine Funktion (x) mit K(x,y) = (x)T(y), einem Skalarprodukt in einem hochdimensionalen Raum. Typische Kernfunktionen K(x,y) = Gaußfunktion K(x,y) = (xTy +1)d Polynom vom Grad d K(x,y) = tanh(xTy –q) Multi-layer-Perzeptron Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14

Ziel für lin. Separierung: Klassifikationsfehler minimieren Gesamtanpassung Ziel für lin. Separierung: Klassifikationsfehler minimieren R(a) =  ½|fa(z) – y| dp(z,y) kontinuierl. Fall Re(a) = 1/N S ½|fa(zi) – yi| diskreter Fall beim Training mit N Mustern. Erreichbar im diskreten Fall mit Mindestwahrscheinlichkeit 1– R(a) < Re(a) + f( , ) Vapnik 1979 mit f(a,b) = bei beliebiger Klassifkation fa(z) und gegebener „Diagnosevariabilität“ h Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14

A B b a c Gesamtanpassung „Diagnosevariabilität“ h VC-Dimension h = maximale Anzahl der Punkte, die durch die Diagnosemaschine auf 2h Arten in zwei Klassen geteilt werden können. Beispiel h = 3 Punkte, 23=8 Diagnosearten möglich. h < 4 A={}, B={a,b,c} A={a}, B={b,c} A={a,b}, B={c} A={a,c}, B={b} A b a B c sowie 4 Möglichkeiten bei Umbenennung AB, BA Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14

Gesamtanpassung: support vector machine Forderung für lin. Separierung „Lege die Hyperebene so, dass sie maximalen Abstand zu allen Grenzpunkten hat“ | wTzi + b | = 1 Mindestabstand = 1 fw,b(zi) = sgn(wTzi + b) yi  {+1,–1} Klassifizierung (wTzi + b) yi > 1 (wTzi + b) yi > 1 – i Minimierung des strukturellen Risikos Schlupfvariable Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14

Gesamtanpassung : support vector machine Ansatz support vector – Maschine Alle Muster sind in in einem Cluster: | zi–a| < r Kugelradius Endliche Beschreibung der Trennung |w| < A h < r2A2 + 1 Vapnik 1995 Reduzierung des Klassifizierungsfehlers durch Beschränkung von h Neues Ziel: Minimierung von T(w, i) = ½ w2 + g mit NB g(w,i) = 1 – (wTzi + b)yi – i = 0 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14

Gesamtanpassung : support vector machine Ansatz Lagrangefunktion L(w,m1,..,mN) = T(w, i) + L = w – = 0 oder w = Bestimmung der mi durch Maximierung von W(a) = – ½ w2 quadrat. Optimierung mit NB 0 < mi < g , i = 1,...,N und = 0 mi  0 : zi = Support-Vektoren Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14

Gesamtanpassung : support vector machine Ergebnis: Klassifizierung mit f(x) = sgn(wTz + b) = sgn( K(ci,x) +b ) 2-Schicht-RBF-Netz Beispiel Supportvektoren lin. Separierung entspricht nicht-lin. Separierung Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14

support vector-Maschinen Approximation & Klassifikation mit RBF Lernen in RBF-Netzen support vector-Maschinen Anwendung RBF-Netze

support vector - Maschine Ergebnisse Daten Klassifikations-Fehlerrate US Postal Service Klass. RBF RBF mit SV Zentren Reine SV-Maschine Training (7291 Muster) 1,7 % 0,0 % Test (2007 Muster) 6,7 % 4,9 % 4,2 % ACHTUNG: Diese Gegenüberstellung ist problematisch, da die Unterschiede in Sensisitivität und Spezifität nicht berücksichtigt wurden! Frage: Warum ist diese Gegenüberstellung problematisch ? Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14

Erkennen von 3D-Figuren Training Feste Figur xi aus 6 Punkten, 40-100 Random-Projekt. auf 2D-Fläche Poggio, Edelman 1990 M Trainingsmuster = M hidden units P 1 2 4 3 6 5 q j · x 1 ( ) 2 6 WM W1 S X = Aufgabe: Aus 2D-view eine 3D-Figur bauen. Lösung: 3D-Testfigur aus Drahtmodell mit 6 Punkten konstruieren, Figur aus unterschiedlichen Richtungen und Punkten beleuchten, Schattenriss (2D-Projektion) auf Fläche als Trainingmuster und Testmuster aufzeichnen. Variiert wurden 2 Winkel, jeweils 12 Winkel bzw. 6 Winkel = 78 mögliche Figuren. q j S   [0°,30°,60°,..,360°]   [0°,30°,60°,..,180°] Test Erkenne Figurtyp + Winkel  und  6x12=78 Standardwinkel Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14

Erkennen von 3D-Figuren Ergebnisse Erkennungsleistung Kodierung und Trainingszahl Abstand zum Objekt Bereichsgröße Ausgabefehler u. Bereichsgröße Ergebnisse: Bei großen Abweichungen (s. Fehlerintervalle) ist die Leistung von der Anzahl der Trainingsmuster und damit RBF abhängig: Pro Muster ein RBF, das die Perspektive speichert. In den Zeichnungen ist die Erkennungsleistung P= MIN/MAX aufgetragen, definiert als (kleinster Euklid. Abstand zwischen diesem und einem anderen Objekt) / (größter Abstand zwischen zwei Zufallsperspektiven dieses Objekts ) Wenn MIN/MAX >1, so ist eine Erkennung über einen Schwellwert möglich. Dabei sind in a) zwei mögliche Kodierungen der beobachteten Projektion verwendet worden: 6 (x,y) Koordinaten (durchgezogene Linie), oder 4 Winkel zwischen jeweils zwei Segmenten (gestrichelt) Würfel vs. Oktaeder bei 40 Trainingsmustern / RBFs Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS 2013/14