Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

1 Seminar Künstliche Intelligenz Self-Organized Formation of Various Invariant-Features in the Adaptive-Subspace SOM von Michael Brückner.

Ähnliche Präsentationen


Präsentation zum Thema: "1 Seminar Künstliche Intelligenz Self-Organized Formation of Various Invariant-Features in the Adaptive-Subspace SOM von Michael Brückner."—  Präsentation transkript:

1 1 Seminar Künstliche Intelligenz Self-Organized Formation of Various Invariant-Features in the Adaptive-Subspace SOM von Michael Brückner

2 2 Inhalt Einleitung Grundlegende Konzepte Die Adaptive-Subspace SOM (ASSOM) Ausgewählte Experimente

3 3 Einleitung Motivation: Effiziente Erkennung von transformierten (verschobenen, gedrehten, skalierten etc.) Mustern. Dazu zunächst die sich nicht bzw. kaum verändernden Eigenschaften betrachten und anhand dieser Äquivalenzklassen bilden (Filterfunktion). Für beliebige dynamische Signale müssten zunächst solche Eigenschaften gefunden werden. Bisherige Ansätze für Filterfunktionen: z.B. Erkennung unbewegter/bewegter Bilder mit Hilfe der Gabor- Transformation, d.h. Daten werden durch Linearkombination von Gabor- Elementarfunktionen approximiert.

4 4 Gabor-Elementarfunktion: Modifizierte Grundfunktionen wie Cosinus-, Sinus-, Logarithmus-Funktion Dazu wird ein Analysefenster der Grundfunktion betrachtet und mit Hilfe der Gaußfunktion skaliert. Problem: Gabor-Transformation setzt Wissen über die Elementar- funktionen a priori voraus.

5 5 Ziel: Für Eingabedaten, mit zunächst unbekannten Eigenschaften, effektive Filterfunktionen erlernen. Idee und Prinzip: Verwenden der Adaptive-Subspace SOM (ASSOM) Modulares künstliches Neuronales Netz, wobei die Module lernen bestimmte Eingabemuster zu erkennen Lernprozess ist analog zur klassischen SOM unüberwacht und kompetitiv (winner-take-all) Module spezialisieren sich im Lernprozess auf bestimmte (unterschiedliche) Eigenschaften der Daten

6 6 Grundlegende Konzepte Dekomposition von Mustern Annahme: Eingabedaten repräsentieren einige grundlegende Merkmale eines komplexen Objektes. Restliche Daten sind lediglich aus diesen Grundmerkmalen (durch Transformation) entstanden und spannen einen nieder-dimensionalen Teilraum (bzgl. der Transformationen) auf. Mehrdimensionales Eingangssignal s(t), wobei s(t p ) der Eingabevektor zum Zeitpunkt t p ist. Die Eingabevektoren zu verschiedenen Zeitpunkten sind i.d.R. nicht gleichverteilt, sondern bilden Mannigfaltigkeiten, d.h. liegen in bestimmten Regionen des Vektorraumes. Suchen Basis-Komponenten, sodass Linearkombination aller möglichen zulässigen Transformationen dieser Vektoren obige Mannigfaltigkeiten (Teilräume) erzeugen.

7 7 Beispielvektoren Beispiel: eindimensionales Eingangssignal Betrachten Signal I 1 (t) im Zeitfenster [t+v 1, t+v n ] mit der Diskretisierung {v 1, v 2, …, v n }. Der Eingabevektor x für einen konkreten Zeitpunkt t p ist dann x(t p ) = [I 1 (t p +v 1 ), I 1 (t p +v 2 ), …, I 1 (t p +v n )] T

8 8 Beispielvektoren Beispiel: zweidimensionales Eingangssignal Betrachten Eingangssignal I 2 (x, y) welches die Werte eines Graustufen-Bildes repräsentiert (0 I 2 1). Das Gebiet (Fenster) für einen gegebenen Punkt r p = (x p, y p ) sei {s 1, s 2, …, s n ) mit s i R 2. Zu unterschiedlichen Zeitpunkten t wird ein anderer Punkt r(t) betrachtet. Der Eingabevektor x für einen konkreten Zeitpunkt t p ist dann x(t p ) = [I 1 (r(t p )+s 1 ), I 1 (r(t p )+s 2 ), …, I 1 (r(t p )+s n )] T

9 9 Sequenzen, Teilräume und Orthogonale Projektion Zwei grundsätzliche Probleme: 1.Wie können die Invarianz-Klassen/Teilräume gefunden und definiert werden? 2.Wie kann festgestellt werden zu welchem Teilraum ein gegebener Vektor gehört? Betrachten zunächst den Fall des eindimensionalen Eingangssignals I 1 (t). Gegeben sei eine Sequenz S = (t p, t p+1, …, t p+N ), d.h. eine Menge von Eingabevektoren V = {x(t p ), x(t p+1 ), …, x(t p+N )} mit H = dim V N. Diese Vektoren V bilden einen Teilraum L des Eingaberaumes. Mit Hilfe des Gram-Schmidt-Verfahrens lässt sich eine orthonormale Basis {b 1, b 2, …, b H } von L finden. Zu jeder Sequenz kann so der zugehörige Teilraum konstruiert werden.

10 10 Ein Maß dafür, ob ein gegebener Vektor x (näherungsweise) in einem Teilraum L liegt, liefert die orthogonale Projektion von x in L. Dabei sei mit in L und orthogonal zu L. Falls, gehört x zu L. Für kleine gehört x näherungsweise zu L. Die zu L gehörige Projektionsmatrix sei. Für gilt dann Für die Projektionsmatrix P gelten die folgenden beiden Eigenschaften:

11 11 Für die optimale Trennung zweier linearer Teilräume L (i) und L (j) gilt: Trennhyperebene T (i,j) mit x T (i,j) Eine äquivalente Aussage ist x T (i,j) mit Aus obigen Aussagen ergibt sich die Gleichung wobei P (i) und P (j) die Projektionsmatrizen von L (i) und L (j) sind.

12 12 Das Netzwerk-Modell Ziel ist, dass jedes Modul i der ASSOM einen unterschiedlichen Teilraum L (i) des Eingaberaumes repräsentiert. Dabei sollen benachbarte Module ähnliche Teilräume repräsentieren. Ein Modul i enthält H Knoten, wobei die Gewichte der Kanten zwischen der Eingabeschicht und dem Knoten z der Vektor ist. Die Ausgabe des z-ten Knoten ist dann das Skalarprodukt von und x. Die Funktion Q bildet die Summe der quadrierten Eingangswerte.

13 13 Aufbau eines Moduls der ASSOM Die Ausgabe des Moduls i ist somit wobei die Gewichtsvektoren gerade die Basisvektoren des linearen Teilraumes L (i) sind. Es gilt weiter: Das Ergebnis y (i) ändert sich für transformierte Eingaben x nicht Modul i repräsentiert einen Teilraum L (i) mit x näherungsweise in L (i). Mit Hilfe des kompetitiven Lernens werden die Gewichtsvektoren so angepasst, dass alle Module je einen Teilraum des Eingaberaumes repräsentieren, d.h. die Gewichtsvektoren diese Teilräume aufspannen.

14 14 Die ASSOM Trainingsphase Gegeben sei die Sequenz S. Das Lernen der ASSOM zerfällt in zwei Teile: 1.Bestimmen des Gewinner-Moduls c mit Teilraum L(c) welcher dem Eingaberaum von S am ähnlichsten ist. 2.Anpassen der Gewichte des Moduls c und der benachbarten Module, sodass diese den aktuellen Eingaberaum besser repräsentieren. Das Gewinner-Modul c ist das Modul, welches dem Eingaberaum von S am ähnlichsten ist, d.h. dass alle Eingabevektoren von S nahezu in L(c) liegen. Für c gilt:

15 15 Dabei ist der Wert der Abstand zwischen dem Teilraum L(i) und den von den Eingabe- vektoren aufgespannten Eingaberaum. Für E(i) = 0 liegen alle Eingabevektoren in L(i). E(i) kann somit als Fehler aufgefasst werden. Ziel des Lernens ist es den mittleren zu erwartenden Fehler, also den mittleren Abstand zwischen einem beliebigen Eingaberaum und dem zugehörigen Teilraum L(c) des Gewinner-Moduls, zu minimieren. Annahme: Die Eingabevektoren seien normiert und die Anpassung der benachbarten Module wird zunächst vernachlässigt. X sei das kartesische Produkt aller Eingabevektoren einer beliebigen Sequenz S, d.h. X ist die Menge aller durch die Eingabevektoren von S aufgespannten Teilräume. Für den mittleren zu erwartenden Fehler gilt dann: Wobei p(X) die Dichtefunktion der Wahrscheinlichkeitsverteilung von X ist.

16 16 Bei Berücksichtigung der benachbarten Module muss die Gleichung angepasst werden. Dazu wird analog zur klassischen SOM eine Nachbarschaftsfunktion eingeführt. Ein Beispiel für eine solche Nachbarschaftsfunktion ist die Gaußfunktion. Für den mittleren zu erwartenden Fehler gilt dann: Die obigen Integrale sind von c, und somit von S und L(i), abhängig. Ein explizites Lösen ist daher nicht möglich. Stattdessen betrachtet man ein konkretes S zum Zeitpunkt t und verringert mit Hilfe des Gradientenabstiegsverfahren, sukzessive den Fehler. Es gilt:

17 17 Unter Verwendung der Lernkonstante zum Zeitpunkt t gilt für die Aktualisierung von die Gleichung: Die Aktualisierung von kann als Matrixmultiplikation mit einer Aktualisierungsmatrix R aufgefasst werden. Für obiges Beispiel gilt:

18 18 Ohne die Annahme, dass die Eingabevektoren normiert sind, muss eine Normierung im Rahmen der Anpassung der Gewichte erfolgen. Für die Aktualisierungsmatrix ergibt sich dann: Für ist die Matrix R 2 äquivalent zu der folgenden Aktualisierungsmatrix (wurde von Kohonen gezeigt, 1995c, 1996):

19 19 Anmerkungen: Die durch das Gradientenabstiegsverfahren gefundene Lösung ist nicht eindeutig, da die Basis des zugehörigen optimalen Teilraumes nicht eindeutig ist. Für das Verfahren reicht es jedoch, eine zulässige Basis dieses optimalen Teilraumes zu finden. Die Aktualisierung der Gewichte entspricht dem Hebbschen Lernen, da die Veränderung des Gewichtsvektors proportional zum Produkt von Ein- und Ausgabe des zugehörigen Neurons ist. Es gilt (beispielsweise für R 1 ) mit und somit, wobei x der Eingabevektor und der Ausgabewert ist.

20 20 Anmerkungen: Um eine schnelle Konvergenz zu gewährleisten, müssen die Basisvektoren nahezu orthonormal gehalten werden. Dazu werden diese mit Hilfe des Gram-Schmidt-Verfahrens regelmäßig orhonormiert. Die nahezu sichere Konvergenz des Verfahrens wurde von Kohonen (1996) gezeigt.

21 21 Der ASSOM-Algorithmus Zunächst ergeben sich zwei grundsätzliche Zielstellungen: 1.Die Stabilität des Algorithmus muss unabhängig von den Eingabedaten sichergestellt werden. 2.Die Filterfunktionen (Module) müssen möglichst gleichmäßig über dem gesamten Eingaberaum verteilt sein, damit alle Eingaben von einem Modul abgedeckt werden. Um die Stabilität des ASSOM-Algorithmus sicherzustellen muss die Aktualisierungsfunktion für die monoton (fallend oder steigend) zur Fehlerfunktion sein. D.h. mit steigenden Fehler wächst bzw. fällt monoton, da sonst die Aktualisierung der immer von der Anfangsbelegung der Gewichtsvektoren abhängig ist.

22 22 Es gilt. Dividiert man durch, ist die Monotonie von sichergestellt, denn: Der Winkel zwischen x und ist größer/gleich dem Winkel zwischen x und. Mit steigendem Fehler nimmt somit das Verhältnis monoton ab.

23 23 Für die Aktualisierungsmatrix ergibt sich daraus: Das zweite Ziel, die gleichmäßige Verteilung der Filterfunktionen, erreicht man durch Wichten der Basis-Komponenten. Das bei der Aktualisierung entstehende Rauschen wirkt auf die Basisvektoren wie ein Glätten der Komponenten. Das Wichten der Komponenten wirkt diesem Effekt entgegen. Ein effektives Verfahren dafür ist das Nullsetzen kleiner Komponenten, wodurch die anderen Komponenten an Bedeutung gewinnen. mit 0 < < 1 Analog zur Lernkonstante wird mit der Zeit kleiner. Eine mögliche Wahl für ist mit 0 < < 1

24 24 Für alle Sequenzen S mache: 1.Bestimme das Gewinner-Modul c für den Eingaberaum der aktuellen Sequenz S. 2.Für jeden Eingabevektor x(t p ) mit t p S mache: 2.1Passe die Gewichtsvektoren für Modul c und dessen Nachbarn an. 2.2Setze kleine Komponenten von auf Null. für ein kleines Orthonomiere die Basisvektoren mit dem Gram-Schmidt-Verfahren. (Die Orthonomierung muss nicht in jedem Schritt erfolgen.)

25 25 Ausgewählte Experimente Im Folgenden werden in zwei ausgewählten Beispielen die Funktions- weise und die Ergebnisse der ASSOM näher betrachtet. Wie oben bereits erwähnt sind die Gewichtsvektoren eines Moduls die Basis- vektoren des zum Modul gehörigen Teilraumes bzgl. einer Eigenschaft und deren linearen Transformation. Die Ausgabe des Moduls ist dann unabhängig von der Transformation, d.h. das Modul kann als Filter dieser Transformation betrachtet werden. Jedes Modul spezialisiert sich in der Trainingsphase auf eine solche Transformation, sodass nach dem Training die Module der ASSOM verschiedene Transformationen filtern können.

26 26 Beispiel: Sprachverarbeitung Im ersten Experiment werden die Filterfunktionen für ein digitalisiertes Sprachsignal betrachtet. Der Inhalt des Signals sind kurze, englische Sätze von verschiedenen Personen. Dieses Hoch-Pass-Gefilterte Signal wurde mit 12,8 kHz digitalisiert. Ein Eingabevektor besteht aus 64 Abschnitten. Eine Sequenz besteht aus 8 Vektoren, wobei der erste zu einem beliebigen Zeitpunkt beginnt und die folgenden um einen zufälligen Wert verschoben sind.

27 27 Beispiel: Sprachverarbeitung Die ASSOM besteht aus 24 linear angeordneten Modulen mit je 2 Eingängen. Die Gewichtsvektoren und sind zufällig initialisiert und normiert. Nach Lernzyklen haben sich die Module auf verschiedene Frequenzbänder spezialisiert. Nach Zyklen zeigte sich jedoch dass das Verfahren nicht stabil ist. Konkret werden bestimmte Frequenzbereiche nicht abgedeckt bzw. haben sich einige Module auf mehrere verschiedene Frequenzbänder spezialisiert. Mit Hilfe der oben diskutierten Modifikationen lassen sich diese Mängel beseitigen, sodass alle Module genau ein Frequenzband abdecken und das komplette Frequenzspektrum abgedeckt wird.

28 28 Beispiel: Mustererkennung Als Eingabe für die ASSOM dienen im zweiten Experiment zweidimen- sionale Bilddaten (Graustufenbild). Ursprung der Eingabedaten ist ein Graustufen-Muster. Betrachtet wird ein runder 316 Pixel großer Ausschnitt welcher verschoben (0 – 10 Pixel nach rechts), gedreht (0 – 1 rad) und skaliert (1 – 1,5 fache Vergrößerung) wird. Die so erzeugten verschie- denen Kreise bilden die Eingabevektoren der Dimension 316. Eine Sequenz besteht aus 6 zufälligen Eingabevektoren. (a) Verschobene Muster. (b) Gedrehte Muster, (c) Skalierte Muster. Die Zeilen bilden jeweils eine Eingabe-Sequenz.

29 29 Beispiel: Mustererkennung Nach Lernzyklen stabilisieren sich die Gewichte der ASSOM. Die Module werden im Lernprozess auf die verschiedenen Transformationen trainiert. Beispielsweise liefert ein Modul unabhängig von der vertikalen Verschiebung die Eingabe (in modifizierter Form). Quellen T. Kohonen, S. Kaski, H. Lappalainen (1997) Self-Organized Formation of Various Invariant-Feature Filters in the Adaptive-Subspace SOM. Helsinki University of Technology, August T. Fischer (1997) Diplomarbeit: Wavelet-Transformation von instationären Wirbeln und turbulenten Strömungsvorgängen. Universität Stuttgart, März 1997.


Herunterladen ppt "1 Seminar Künstliche Intelligenz Self-Organized Formation of Various Invariant-Features in the Adaptive-Subspace SOM von Michael Brückner."

Ähnliche Präsentationen


Google-Anzeigen