Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Neuronale Netzwerke Biologisches Vorbild Grundlagen.

Ähnliche Präsentationen


Präsentation zum Thema: "Neuronale Netzwerke Biologisches Vorbild Grundlagen."—  Präsentation transkript:

1 Neuronale Netzwerke Biologisches Vorbild Grundlagen

2 WS 2010/11H. Werner : Datenalyse§1 : 2 Was sind künstliche neuronale Netzwerke? Neuronale Netzwerke (NN, oft auch künstliche Neuronale Netzwerke KNN bezeichnet) sind Computerprogramme, die die Arbeitsweise natürlicher Neuronen nachahmen. Zwecke dieser Programme können sein –Modellierung tatsächlicher neuronaler Vorgänge in der Biologie –Einsatz der Möglichkeiten neuronaler Systeme in Computerprogrammen

3 WS 2010/11H. Werner : Datenalyse§1 : 3 Das biologische Vorbild Biologisches Vorbild der künstlichen Neuronalen Netze sind die Neuronen-geflechte, wie sie in menschlichen und Tierischen Nervenbahnen und Gehirnen vorkommen. Ein menschliches Gehirn besteht aus ca. 100 Billionen Neuronen, die mit ihren Axonen und Dendriten über Synapsen zusammengeschaltet sind.

4 WS 2010/11H. Werner : Datenalyse§1 : 4 Arbeitsweise Die Arbeitsweise Neuronaler Netzwerke ist bestimmt durch –massiv parallele Informationsverarbeitung in den Neuronen –Propagierung der Informationen über die Synapsen (Neuronenverbindungen) –Vorbereitung der Netze für ihre Arbeitsphase (Propagierung) durch die Aufbauphase (Netztopologie) und eine Trainingsphase (kein Programmieren!)

5 WS 2010/11H. Werner : Datenalyse§1 : 5 Biologie der Nervenzellen Eine biologische Nervenzelle besteht aus dem eigentlichen Zellkörper (Soma), den Dendriten, das sind kurze Leitungen (um 0.4 mm), über die Reize in die Nervenzelle gelangen können, dem Axon, das ist die Leitung (mm-Bruchteil bis mehrere m lang), über die Zellaktivität an andere Zellen weitergeleitet wird, und schließlich den Synapsen, das sind die Kontaktstellen zwischen Axonen und Dendriten bzw. Soma. Da Dendriten und Axon stark verästeln, entstehen die hohen Verbindungszahlen biologischer Nervensysteme. Wird das Soma über einen gewissen Schwellwert hinaus über die Dendriten aufgeladen, so entlädt sich die Zelle einen kurzzeitigen elektrischen Impuls (Spike), der vom Axon an andere Zellen übertragen wird. Da die biologische Information nicht in der Amplitude der Spikes sondern in deren Frequenz codiert ist, können diese Spikes ohne weiteren Verstärkungsmechanismus auf alle Verzweigungen des Axons weitergeleitet werden. Die Synapsen sind chemische Kontakte, die auf einen Spike mit der Ausschüttung gewisser Ionen (Neuro- transmitter) reagieren, die dann wiederum Potential- änderungen (und damit Spikes) in den Dendriten erzeugen. Die neue Spikefrequenz ist dann in Ab- hängigkeit von der Stärke des Kontaktes (Synapsen- gewicht) proportional zur ankommenden Spikefrequenz. Dabei können die Spikes zur Anregung des Somas beitragen (exzitatorische Synapsen) oder im Gegenteil hemmend wirken (inhibitorische Synapsen).

6 WS 2010/11H. Werner : Datenalyse§1 : 6 McCulloch-Pitts (1940) (W.McCulloch, W.Pitts: A logical calculus of the ideas immanent in nervous activity. Bull. of Math. Biophysics 5, 1943, ) Dieses einfache Modell sieht die Neuronen als Input-abhängige 0-1- Signalgeber, die intern einen Schwellwert a haben. Wenn der Gesamtinput diesen Schwellwert erreicht oder überschreitet gibt das Neuron 1 aus (spike) und sonst 0. Der Input kommt über Leitungen, die excitatorisch (anregend) oder inhibitorisch (hindernd) sein können, jedes Neuron ermittelt nun seinen Gesamtinput als die Summe aller Signale auf den excitatorischen Leitungen vermindert um die Summe aller Signale auf den inhibitorischen Leitungen zu dem Neuron. Erstes Ergebnis dieser Untersuchungen war, daß die durch solche Neuronalen Netze (am grünen Tisch durch Programme) realisierbaren Funktionen genau die im mathematischen Sinne berechenbaren Funktionen sind. Dieser Netztyp realisiert aber noch keine Anpassung (Training/Lernen) an ein gegebenes Problem.

7 WS 2010/11H. Werner : Datenalyse§1 : 7 Neuronen Die Output-Funktion legt fest, wie der Output aus dem oben berechneten Gesamtreiz ermittelt wird. In dieser Funktion spielt ggf. ein besonderer Parameter Schwellwert eine Rolle. Der Output wird dann über die Verbindungen als Reiz an andere Neuronen geleitet Der Input ist gekenn- zeichnet durch die Aktivierungs-Funktion. Diese legt fest, wie die über die Verbindungen eingehenden Reize x i mit den Gewichten w i zu einem Gesamtreiz (Aktivierung) zusammengefaßt werden.

8 WS 2010/11H. Werner : Datenalyse§1 : 8 Topologie Ein neuronales Netzwerk besteht aus einer Anzahl von Neuronen ( bildlich durch kleine Kreise dargestellt ), die untereinander verbunden sein können ( die Verbindungen werden hier durch Pfeile dargestellt ). Die Struktur aller vorhandener Verbindungen heißt die Topologie des Netzwerks. Sie gibt also Antwort auf die Frage, welches Neuron ist mit welchem Neuron direkt verbunden. Zur Topologie gehört noch die Festlegung, welche Neuronen Input von aussen bekommen bzw. Output nach aussen weitergeben

9 WS 2010/11H. Werner : Datenalyse§1 : 9 Propagierung Das Verhalten eines neuronalen Netzwerks ist bestimmt durch die Gewichte seiner Verbindungen. –eine passende Folge von Werten wird in die Input-Neuronen eingegeben –die Neuronen berechnen ihren Output und geben den über die Verbindungen an andere Neuronen weiter –Dieser Schritt wird solange wiederholt, bis sich bei keinem Neuron der Input mehr verändert –Der Netz-Output ist nun die Folge der Outputs der speziellen Output-Neuronen Bei geschichteten Netzen muss der Input nur von einer Schicht zur jeweils nächsten Schicht weitergegeben (propagiert) werden. Bei Netzen mit Rückkopplungen (zyklen) läuft die Weitergabe so lange, bis das Netz stabil wird, d.h. die Aktivitäten der Neuronen ändern sich nicht mehr. ( Es ist mathematisch nicht zwingend, dass ein stabiler Zustand überhaupt erreicht wird! )

10 WS 2010/11H. Werner : Datenalyse§1 : 10 Modellierung Damit zeigt ein neuronales Netzwerk ein bestimmtes (von den Gewichten abhängiges) Input- Output-Verhalten, das bei hinreichender Ähnlichkeit als Modell für das Input- Output-Verhalten eines Prozesses genommen werden kann. Ziel einer Modellierung ist es also für einen gegebenen Prozess ein geeignetes Netzwerk und darin geeignete Gewichte zu finden, damit der Prozess genau genug beschrieben (simuliert) wird.

11 WS 2010/11H. Werner : Datenalyse§1 : 11 Training Hat man ein Netzwerk entworfen, das die richtige Anzahl von Input- und Output-Neuronen besitzt, besteht die Aufgabe darin, die Gewichte geeignet zu bestimmen, dies nennt man Training des Netzwerks. Dazu benötigt man zunächst einen Satz Prozessdaten, in denen das Input-Output- Verhalten des Prozesses dokumentiert ist. Die Datensätze des Prozesses gibt man nun in das Netzwerk, das zunächst mit beliebigen Gewichten initialisiert wurde, und vergleicht den Netz-Output mit dem Prozessoutput. Es müssen nun Lernregeln entwickelt werden, die eine Veränderung der Gewichte in so einer Weise erzeugen, dass bei der nächsten Eingabe desselben Datensatzes der gemachte Fehler geringer wird.

12 WS 2010/11H. Werner : Datenalyse§1 : 12 -Regel Ein einfaches Beispiel ist die -Regel, bei der das Gewicht einer Verbindung vergrößert (verkleinert) wird, wenn der Output zu klein (zu groß) ist. Dies ist eine Fehler-orientierte (supervised) Lernregel

13 WS 2010/11H. Werner : Datenalyse§1 : 13 Hebb-Regel Die Hebb-Regel belohnt (verstärkt) Verbindungen, bei denen beide Neuronen starke Aktivität zeigen. Dies ist eine selbst-organisierte (unsupervised) Lernregel

14 WS 2010/11H. Werner : Datenalyse§1 : 14 Lernparadigmen 1.Überwachtes Lernen ( supervised, mit Lehrer, output-oriented ) Das Netzwerk verarbeitet den Trainingsinput und liefert sein Ergebnis, das ein Lehrer mit dem gewünschten Output vergleicht. In Abhängigkeit von dem Fehler wird das Netzwerk so verändert, daß dieser Fehler verringert wird. 2.Unüberwachtes Lernen ( selforganized, durch Gewöhnung, input-oriented ) Das Netzwerk verarbeitet die Inputs und verändert sich dabei so, daß es auf die präsentierten Inputs immer stärker reagiert. 3.verstärkendes Lernen ( reinforced, mit Belohnung, behavior-oriented ) Das Netzwerk verarbeitet die Inputs und überprüft, ob seine Aktivitäten eine bestimmte vorgegebene Form haben. Im positiven Fall wird das Verhalten des Netzwerks verstärkt. online-(Einzelschritt)-learning : nach jeder Eingabe wird gelernt offline(Gesamtschritt)-learning: nach Eingabe aller Datensätze der Trainingsdatei wird ein Anpassungsschritt gemacht.

15 WS 2010/11H. Werner : Datenalyse§1 : 15 Generalisierungstest Die vorhandenen Daten werden in zwei Gruppen geteilt, die Trainingsdaten und die Testdaten Nach erfolgreichem Training mit den Trainingsdaten wird mit den Testdaten überprüft, ob das Netz auch auf diesen zufriedenstellend arbeitet.

16 WS 2010/11H. Werner : Datenalyse§1 : 16 das Perceptron Ein Perceptron verfügt über eine Input-Schicht, über die n Inputs als Vektor x =(x 1,..,x n ) eingegeben werden. Es hat n Verbindungen zu dem Output-Neuron mit dem Gewichtsvektor w =(w 1,..,w n ). Das Output-Neuron hat den Schwellwert s, errechnet seine Aktivität a = xw = x 1 w x n w n nach der Skalarprodukt-Regel und verwendet die Sprungfunktion (x< s)?0:1 als Output-Funktion. Der Output errechnet sich also aus der Formel: o = 0 falls xw = x 1 w x n w n < s und o = 1 sonst; es entscheidet also das Vorzeichen des Skalarprodukts yv = x 1 w x n w n -s der erweiterten Vektoren y =(1,x 1,..,x n ) und v =(-s,w 1,..,w n ) über den Output. x1x1 x2x2 x3x3... s xnxn

17 WS 2010/11H. Werner : Datenalyse§1 : 17 Geometrische Interpretation Die Gleichung wx = s beschreibt eine Hyperebene im n- dimensionalen Raum, auf der der Vektor w senkrecht steht. Der Inputraum wird dadurch in zwei Hälften geteilt, auf dessen einer Hälfte ( wx < s) der Wert 0 ausgegeben wird, auf der anderen Hälfte der Wert 1. w 1 0 x1x1 x2x2

18 WS 2010/11H. Werner : Datenalyse§1 : 18 die Delta-Regel Das Perceptron wird nach der sogenannten Delta-Regel output-orientiert trainiert. Beim Training werden dem Netzwerk Inputs aus einer Trainingsdatei präsentiert, für die die gewünschten (soll-) Outputs bekannt sind. Die aktuellen Ist-Outputs des Netzes werden mit den Soll-Outputs verglichen und im Fall einer Diskrepanz die Gewichte und der Schwellwert nach folgender Formel angepaßt: 1.Delta-Regel: w i,neu := w i,alt + x i *(Output soll - Output ist ) Beachte: w 0 = -b (bias), x 0 =1 Der Faktor x i sorgt dafür, daß eine Angleichung nur erfolgt, wenn die Verbindung w i tatsächlich zu dem Output beiträgt. Output soll – Output ist ist der aktuelle Fehler des Netzes.

19 WS 2010/11H. Werner : Datenalyse§1 : 19 Korrektheit Der Perceptron Lernalgorithmus wird nun wie folgt interpretiert Es gibt zwei Mengen Y und Z auf deren Elemente das Perzeptron mit 0 bzw. 1 antworten soll, also yv 0 muß für ein geeignetes v gelten. Ist yY oder zZ ein Element, das noch nicht korrekt behandelt wird ( yv >=0, zv zv alt. Das Verfahren beginnt also mit einem beliebigen erweiterten Gewichtsvektor v 0 und addiert (subtrahiert) sukzessive erweiterte Inputs z, bei denen der Output noch nicht korrekt ist und wird dabei immer besser. Der Perceptron Konvergenz Satz besagt nun, daß dieses Verfahren nach endlich vielen Schritten bei einer Lösung v endet, falls es überhaupt eine Lösung gibt.

20 WS 2010/11H. Werner : Datenalyse§1 : 20 Konvergenz Satz SATZ: Wenn ein Perceptron eine Klasseneinteilung überhaupt lernen kann, dann lernt es diese mit der Delta-Regel in endlich vielen Schritten. –Problem: Wenn der Lernerfolg bei einem Perceptron ausbleibt, kann nicht direkt erkannt werden, ob 1. das Perceptron die Klassifikation prinzipiell nicht lernen kann, oder 2. der Lernalgorithmus mit seinen endlich vielen Schritten noch nicht fertig geworden ist, denn der Satz als reiner Existenzsatz gibt keinen Anhaltspunkt über eine obere Schranke für die Anzahl von Lernschritten.

21 WS 2010/11H. Werner : Datenalyse§1 : 21 Konvergenzbeweis Nach Voraussetzung gibt es ein w mit wz >0 für alle zZ und wir beginnen den Algorithmus mit v 0 =0. (eigentlich müssen wir auch Y mit wy <0 für alle yY betrachten) Sei a das Minimum aller wz >0 und M das Maximum aller z 2. v i = z z i, also ist wv i = wz wz i >= i*a. Wegen ( wv i ) 2 = i 2 * a 2 / w 2 Andererseits ist für alle k <=i stets v k-1 z k < 0 also v k 2 = ( v k-1 + z k ) 2 = v k * v k-1 z k + z k 2 < v k z k 2 also ist v i 2 < z z i 2 i 2 * a 2 / w 2 und damit i < M * w 2 / a 2 Ohne Kenntnis von w kennen wir weder w 2 noch a, also können wir die obere Schranke von i nicht aus dem Beweis bestimmen!

22 WS 2010/11H. Werner : Datenalyse§1 : 22 unlösbare Probleme Die boolesche Funktion XOR stellt ein nicht linear separierbares Problem dar, weil sich die beiden Klassen auf Diagonalen gegenüberliegen. Die Punkte (0,1) und (1,0) mit den Werten 1 liegen auf einer Diagonale und die beiden anderen auf der zweiten Diagonale. Es gibt also keine Gerade, die Punkte (0,1) und (1,0) sowie (0,0) und (1,1) voneinander trennt

23 WS 2010/11H. Werner : Datenalyse§1 : 23 alternative Outputfunktion Wähle man nun als alternative Outputfunktion die Funktion o(a) = 1-(a-1) 2 Mit den Gewichten 1 und 1 liefern (0,1) und (1,0) die Aktivität a=1 mit Output 1 und (0,0) bzw. (1,1) die Aktivitäten a=0 bzw. a=2 und damit den Output 0. Problem: Wie trainiert man Netzwerke mit anderen Output Funktionen? 10 10

24 WS 2010/11H. Werner : Datenalyse§1 : 24 zusätzliche Schichten Mit einer Zwischenschicht lassen sich aber zwei trennende Hyperebenen definieren, zwischen denen die eine der Klassen lokalisiert werden kann. komplexere Klassifikationen lassen sich durch Einfügen von Zwischenschichten realisieren. Problem: Wie trainiert man mehrere Schichten? x 0 =1 x1x1 x2x2 x3x3 srsr x4x4 w 10 10

25 WS 2010/11H. Werner : Datenalyse§1 : 25 Anwendungsgebiete Mustererkennung Handschrift-Erkennung / Spracherkennung / optische Musterkassifikation / EEG-Klassifikation. Codierung / Visualisierung Bildkompression / Sprachsynthese / Rauschfilter / Mapping z.B. in der Medizin. Kontrolle Qualitätskontrolle (optisch, akustisch) / Robotersteuerung / Navigation / Schadens-Diagnostik / EEG-Überwachung. Optimierung Parametervariation in Fertigungsprozessen / TSP- Probleme / Scheduling-Probleme.


Herunterladen ppt "Neuronale Netzwerke Biologisches Vorbild Grundlagen."

Ähnliche Präsentationen


Google-Anzeigen