Adaptive Systeme-2 Prof. Rüdiger Brause WS 2011
Organisation Einführung in adaptive Systeme B-AS-1, M-AS-1 Vorlesung Dienstags Uhr, SR9 Übungen Donnerstags Uhr, SR 9 Adaptive Systeme M-AS-2 Vorlesung Donnerstags Uhr, SR9 Übungen Donnerstags Uhr, SR 9 Gemeinsames Übungsblatt, unterteilt in 2 Teile Ausgabe: Dienstags, Abgabe: Dienstags Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Vorschau Themen 1.Einführung und Grundlagen 2.Lernen und Klassifizieren 3.Merkmale und lineare Transformationen 4.Lokale Wechselwirkungen: Konkurrentes Lernen 5.Netze mit RBF-Elementen 6.Rückgekoppelte Netze 7.Zeitdynamik und Lernen 8.Fuzzy-Systeme, Evolutionäre und genetische Algorithmen 9.Simulationstechnik
Klassifizierung Grundlagen Modellierung Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Das Vorbild: Gehirnfunktionen Lineares Modell Zell-Potential ~ Eingabe-Spikefrequenz Ausgabe-Spikefrequenz ~ Zellstrom Ausgabe-Freq. y ~ Eingabe-Freq. x Problem: Reizähnlichkeit Ähnlich zu a) ?
Das Vorbild: Gehirnfunktionen Kodierungsbeispiel: Neuron Nr.12, Grashüpfer Creutzig et al, J.Neurosci., 29(8), , 2009 Zirp-Identifikation von Männchen einer Spezies Keine Konstanz von Pausen- und Silbenlänge, Verhältnis Silben / Pausen ist entscheidend Lösung: Längere Intervalle produzieren mehr spikes, Verhältnis bleibt invariant Temperatur 2 Temperatur 1 Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS
Klassifizierung Grundlagen Modellierung Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Modellierung formaler Neuronen x 1 x 2 x 3 w 1 w 2 w 3 y z Akti- vierung Ausgabe (Axon) Gewichte (Synapsen) Eingabe (Dendriten) x = (x 1,...,x n ) w = (w 1,...,w n ) Dendriten Axon Zell körper Synapsen y = S(z) z = = w T x squashing function radial basis function Ausgabefunktionen
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Modellierung eines Neurons Input-Output Formalisierung X={x}, Y = {y}, W = {w} DEF Transferfunktion F: X W Y F: X DEF Lernfunktion DEF formales Neuron
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Modellierung von Netzen DEF Neuronales Netz Ein neuronales Netz ist ein gerichteter Graph G := (K,E) aus einer Menge von Knoten K = {v}, den neuronalen Einheiten, und einer Menge von Kanten E KxK, den Verbindungen zwischen den Einheiten.
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Ausgabefunktionen Binäre Ausgabefunktionen z.B. Kodierung von qual.Merkmalen rot = 1, braun = 0 y = S B (z) := Heavyside-Funktion y = S B (z) :=
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Formale Neuronen Anwendung binäre Funktion: log. Gatter x1x1 x2x2 z=x 1 /2 + x 2 /2 X 1 OR x 2 00z=00 01 z=½>1/3 S B = z= 1>1/3 S B =1 1 w 1 = ½ w 2 = ½ w 3 = - z = w 1 x 1 +w 2 x 2 +w 3 x 3 x 1 x 2 x 3 w 1 w 2 w 3 y z Veränderung: w 3 = - - : log. Gatter = ? Schwellwertveränderung: Wechsel der Funktionalität!
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Ausgabefunktionen Begrenzt-lineare Ausgabefunktionen y = S L (z,s) := k=z max /2s y = S L (z,s) := k=z max /s
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Ausgabefunktionen Sigmoidale Ausgabefunktionen Fermi-Funktion, logistische Funktion Kosinus-Quetschfunktion S F (z) := sowie hyperb. Tangens S T (z) := 2S F (z)-1 = = tanh(kz) S C (z) := K=const
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Formale Neuronen Zeitmodellierung Ann.: Abfluss der Ladung aus dem Zellkörper - z/ t mit sinkender Spannung proportional geringer - z/ t ~ –z(t) oder - z/ t = –z(t) * Rechnung * tt+1 t´ Visualisierung z(t) A0A0 A
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS DEF Schicht Schichten
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS lineare Schicht Lineare Transformation mit NN y = = W·x Matrix-Multiplikation
Affine Transformationen Erweiterung des Eingaberaums (homogene Koordinaten) w 1 x 1 +w 2 x 2 + … + w n x n w 1 x 1 +w 2 x 2 + … + w n x n + w n+1 1 w T x =(w 1,…,w n ) (x 1 …,x n ) T (w 1,…,w n,w n+1 ) (x 1 …,x n,1) T =w T x (Skalierung, Rotation) (Skalierung, Rotation, Verschiebung) Verschiebung eines Vektors = Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Affine Transformation Affine Transformation mit NN W = Drehung Skalierung Shift W shift W rot W scal = 2-dimensional W shift = W rot = W scal = Affine Transformation
Klassifizierung Grundlagen Modellierung Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Klassenbildung heute Objekte werden durch Merkmale beschrieben z.B. qualitativ Mensch = (groß, braune Augen, dunkle Haare, nett,...) quantitativ Mensch = (Größe=1,80m, Augenfarbe=2, Haarfarbe=7,...) Idee = Form = Klassenprototyp Muster eines Objekts (Breite, Höhe) = x Breite c 2 Höhe c 1 Trennung von Klassen Blütensorte 1 Blütensorte 2 Klassenprototyp Klassifizierung = Ermitteln der Geradengleichung bzw Parameter c 1,c 2. Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Klassentrennung Breite x 1 c 2 Höhe x 2 c 1 Klassentrennung durch Trenngerade mit f(x 1 ) = x 2 = w 1 x 1 +w 3 z<0 z=0 bzw. z = w 1 x 1 +w 2 x 2 +w 3 x 3 = 0 z>0mit x 3 := 1 Mit z = = w T x Klassenentscheidung y = S(z) =
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Trennung mehrerer Klassen DEF Lineare Separierung Seien Muster x und Parameter w gegeben. Zwei Klassen 1 und 2 des Musterraums = 1 2 mit 1 2 = heißen linear separierbar, falls eine Hyperebene {x*} existiert mit g(x*) = w T x* = 0, so daß für alle x 1 gilt g(x)<0 und für alle x 2 gilt g(x)>0.
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Klassentrennung durch formales Neuron Klassentrennung durch binäres Neuron z = = w T x Klassenentscheidung y = S B (z) = z = w T x S B (z) y = 0: Klasse 1 y = 1: Klasse 2 x1x1 x2x2 x3x3 x n
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS WIE erhalten wir die richtigen Gewichte, d.h. die richtige Klassifizierung ? Lernen !
Assoziativ- speicher
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Neuro-Modell des Assoziativspeichers Funktion: Jede Komp.ist lin. Summe z i = w i x Nichtlin. Ausgabe: y i = S B (z i ) = Lernen von W ?
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Lernen im Assoziativspeicher Speichern aller N Muster mit Hebbscher Regel Auslesen eines Musters r y = Wx r = z = r L r (x r ) T x r + assoziierte Antwort + Übersprechen von anderen Mustern Orthogonale Muster x r : Übersprechen = 0, exakte Reproduktion. Nicht-orthogonale Muster: Schwellwerte nötig zum Unterdrücken des Übersprechens.
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Trennung mehrerer Klassen Erinnerung: Lineare Separierung xrxr xpxp xkxk xqxq x2x2 x1x1 (1,0) (0,0) (0,1) (1,1) 1 Neuron: 1 Trennlinie (Ebene) 2 Neurone: 2 Trennlinien (Ebenen) Bereiche trennbar
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Trennung mehrerer Klassen Problem: Klassenentscheidung über Korrelationsgröße xpxp xqxq x2x2 x1x1 Entscheidung über x: Klasse p: xx p > xx q Klasse q: xx p < xx q Frage: x = x p : In welche Klasse? Antwort: in Klasse q ! Lösung (x-y) 2 = x 2 -2xy +y 2 ist minimal xy ist maximal genau dann, wenn Konstante Länge c = |x|=|y| (normierte Musteraktivität)
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Trennung mehrerer Klassen Erweiterung der Mustertupel x X = x 0, x 1, x 2,..., x n ) mit |x| = const weil x 2 0 = c 2 – | x 1, x 2,..., x n )| 2 > 0 (!) Einbettung in den Hyperraum Beispiel: 2-dim 3-dim c x x2x2 x1x1 x3x3 xrxr xkxk xqxq xpxp Entscheidung durch cos ( ) = = c –2 x T x r cos( ) monoton fallend Winkel als Distanzmaß min max Korrelation
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Assoziativspeicher: Speicherkapazität M Tupel (x,y) gegeben: Wie viele können zuverlässig gespeichert werden? x 1 = x 2 =...= x M : nur ein Muster speicherbar. y 1 = y 2 =...= y M : beliebig viele Muster speicherbar, da Antwort y immer richtig. Problem der Kodierung der Muster ! Sei |x| = a. Maximaler Musterabstand max d(x p,x q ) = min x p x q = 0 bei orthogonalen Mustern Reelle Komponenten: n Dimensionen n orthogonale Basisvektoren Binäre Komponenten: M max = z.B. n=100, a=10, also max M=10 Mittlere Abstand maximal z.B. n = 100 max M 2 n /n
Rüdiger Brause: Adaptive Systeme, Institut für Informatik, WS Assoziativspeicher: Binärspeicher Spärliche Kodierung Binäre Muster Speichern:w ij = V p y i p x j p = max p y i p x j p Kapazität:H B = ln 2 = 0,693 Bit pro Speicherzelle Palm 1980 vergleichbar mit CAM-Speicher Kodierung k = a x = ld m j = a y = O(log n) CAM vs. Ass.matrix Konstante Zahl von 1 durch eine Leitung pro Eingabecode