Biologisches Vorbild Grundlagen

Slides:

Advertisements

Ähnliche Präsentationen

Seminarankündigung für das SS04

Advertisements

Christian Scheideler SS 2009

Perceptrons and the perceptron learning rule

Adaptive Systeme Prof. Rüdiger Brause WS 2011.

Rekursion: Rekurrenz: Algorithmen rufen sich selbst (rekursiv) auf.

Falls Algorithmen sich selbst rekursiv aufrufen, so kann ihr Laufzeitverhalten bzw. ihr Speicherplatzbedarf in der Regel durch eine Rekursionsformel (recurrence,

Eine dynamische Menge, die diese Operationen unterstützt,

Vorlesung Programmieren II

Polynomial Root Isolation

Ein Neuronales Netz könnte lernen indem es …

4. Konzepte des Konnektionismus – Theorie Künstlich Neuronaler Netze

Graphen Ein Graph ist eine Kollektion von Knoten und Kanten. Knoten sind einfache Objekte. Sie haben Namen und können Träger von Werten, Eigenschaften.

WR + WS ZEIGEN Neues aus der Mathematik.

Grundlagen der Neurobiologie

3. Kapitel: Komplexität und Komplexitätsklassen

Seit 75 Jahren weiß man, dass ein sensorisches Neuron umso mehr Aktionspotentiale generiert, je stärker der Reiz ist. Inzwischen hat sich heraus- gestellt,

Marvin Minsky und das Perceptron

Neuronale Netze Von Kay-Patrick Wittbold.

Neuronale Netze Inhalt des Vortrags:

SWITCH - Anweisung.

REKURSION + ITERATION. Bemerkung: Die in den folgenden Folien angegebenen "Herleitungen" sind keine exakten Beweise, sondern Plausibilitätsbetrachtungen.

Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.

Entscheidungsunterstützungssysteme IWI Frankfurt 2003

in den Sportwissenschaften

(Ron Rivest, Adi Shamit, Leonard Adleman , 1977)

Uebung 03 Netzdateien.

Uebung 02 NN Properties b1b1 b2b2 b3b3 b4b4 b INPUTINPUT OUTPUTOUTPUT w 1o w 2o w 3o w 4o w 11 w 12 w 13 w 14 w 21 w 22 w 23 w 24.

Uebung 01 ANN mit MATLAB.

Uebung 03 Perceptron Training INPUTINPUT b OUTPUTOUTPUT w1w1 w2w2.

zur Vorlesung Neuronale Netzwerke

Neuronale Netze Romy Kuttner, Franco Haberland.

Quadratische Gleichung

Wismar Business School

2. Biologische Neuronen Schematischer Aufbau einer Nervenzelle

§9 Der affine Raum – Teil 2: Geraden

§9 Der affine Raum – Teil 2: Geraden

Neuronale Netzwerke am Beispiel eines MLP

Neuronale Netze (Mitchell Kap. 4)

Neuronale Netze 2 (Mitchell Kap. 4)

Maschinelles Lernen und automatische Textklassifikation

Die Dendriten: Sie nehmen von den Synapsen vorhergeschalteter Nerven- oder Sinneszellen Reize auf und leiten die Information durch elektrische Impulse.

Neuronale Netze Teil II.

Neurowissenschaften -

Moin. Ich benutze PPT 2002 und möchte drei Bilder nacheinander 1

Übungsaufgaben für Microsoft Excel

Why connectionism? Backpropagation Netzwerke

Adaptive Systeme Prof. Rüdiger Brause WS 2013.

Adaptive Systeme-2 Grundlagen

Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/ /23.1.

Information und Kommunikation Hartmut Klauck Universität Frankfurt SS

Hartmut Klauck Universität Frankfurt WS 06/

Neuronale Netze.

Neuronale Netze Nachtrag Perzeptron

Neuronale Netze (1) Isabel Schwende

Künstliches Neuronales Netz nach John Hopfield

DAS HERON-VERFAHREN Heron erkannte, dass man die Quadratwurzel einer Zahl bestimmen kann, indem man verschiedene Mittelwerte berechnet. Solche Nährerungsverfahren.

Modellbildung und Simulation

Das Heronverfahren arithmetisches Mittel geometrisches Mittel

Elman-Netzwerke Wintersemester 2004/05 Seminar Kindlicher Spracherwerb C. Friedrich & R. Assadollahi vorgestellt von Christian Scharinger & Guido Heinecke.

ENDLICHE KÖRPER RSA – VERFAHREN.

Neuronale Netze - Anwendungen in Chemie und Verfahrenstechnik

SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.

Lernen 1. Vorlesung Ralf Der Universität Leipzig Institut für Informatik

Lineare Gleichungen Allgemeine Einführung Äquivalenzumformungen

Bewege den Mauszeiger über die Zahlen der Abbildung um Erläuterungen zu den Teilen des Neurons zu erhalten.

Univ.-Prof. Dr.-Ing. H. Nacken Vorlesung Wasserwirtschaftliche Modellierung Themen: Vorlesung 8 Neuronale Netze (ANN) Trainingsformen von Neuronalen Netzen.

Organisation Referate Materialien Dritter Termin Workshop 27.Oktober 2010 Projektseminar WS 09/10 Konnektionistische Sprachverarbeitung 1.

Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.

Konnektionismus: Pattern Association Simulationsumgebung tlearn Projektseminar Konnektionistische Sprachverarbeitung WS 2009/2010.

Emanuel Mistretta Lukas Schönbächler

Präsentation transkript:

Biologisches Vorbild Grundlagen Neuronale Netzwerke Biologisches Vorbild Grundlagen

Was sind künstliche neuronale Netzwerke? Neuronale Netzwerke (NN, oft auch künstliche Neuronale Netzwerke KNN bezeichnet) sind Computerprogramme, die die Arbeitsweise natürlicher Neuronen nachahmen. Zwecke dieser Programme können sein Modellierung tatsächlicher neuronaler Vorgänge in der Biologie Einsatz der Möglichkeiten neuronaler Systeme in Computerprogrammen WS 2010/11 H. Werner : Datenalyse

Das biologische Vorbild Biologisches Vorbild der künstlichen Neuronalen Netze sind die Neuronen-geflechte, wie sie in menschlichen und Tierischen Nervenbahnen und Gehirnen vorkommen. Ein menschliches Gehirn besteht aus ca. 100 Billionen Neuronen, die mit ihren Axonen und Dendriten über Synapsen zusammengeschaltet sind. WS 2010/11 H. Werner : Datenalyse

Arbeitsweise Die Arbeitsweise Neuronaler Netzwerke ist bestimmt durch massiv parallele Informationsverarbeitung in den Neuronen Propagierung der Informationen über die Synapsen (Neuronenverbindungen) Vorbereitung der Netze für ihre Arbeitsphase (Propagierung) durch die Aufbauphase (Netztopologie) und eine Trainingsphase (kein Programmieren!) WS 2010/11 H. Werner : Datenalyse

Biologie der Nervenzellen Eine biologische Nervenzelle besteht aus dem eigentlichen Zellkörper (Soma), den Dendriten, das sind kurze Leitungen (um 0.4 mm), über die Reize in die Nervenzelle gelangen können, dem Axon, das ist die Leitung (mm-Bruchteil bis mehrere m lang), über die Zellaktivität an andere Zellen weitergeleitet wird, und schließlich den Synapsen, das sind die Kontaktstellen zwischen Axonen und Dendriten bzw. Soma. Da Dendriten und Axon stark verästeln, entstehen die hohen Verbindungszahlen biologischer Nervensysteme. Wird das Soma über einen gewissen Schwellwert hinaus über die Dendriten aufgeladen, so entlädt sich die Zelle einen kurzzeitigen elektrischen Impuls (Spike), der vom Axon an andere Zellen übertragen wird. Da die biologische Information nicht in der Amplitude der Spikes sondern in deren Frequenz codiert ist, können diese Spikes ohne weiteren Verstärkungsmechanismus auf alle Verzweigungen des Axons weitergeleitet werden. Die Synapsen sind chemische Kontakte, die auf einen Spike mit der Ausschüttung gewisser Ionen (Neuro- transmitter) reagieren, die dann wiederum Potential- änderungen (und damit Spikes) in den Dendriten erzeugen. Die neue Spikefrequenz ist dann in Ab- hängigkeit von der Stärke des Kontaktes (Synapsen- gewicht) proportional zur ankommenden Spikefrequenz. Dabei können die Spikes zur Anregung des Somas beitragen (exzitatorische Synapsen) oder im Gegenteil hemmend wirken (inhibitorische Synapsen). WS 2010/11 H. Werner : Datenalyse

McCulloch-Pitts (1940) (W.McCulloch, W.Pitts: A logical calculus of the ideas immanent in nervous activity. Bull. of Math. Biophysics 5, 1943, 115-133) Dieses einfache Modell sieht die Neuronen als Input-abhängige 0-1-Signalgeber, die intern einen Schwellwert a haben. Wenn der Gesamtinput diesen Schwellwert erreicht oder überschreitet gibt das Neuron 1 aus (spike) und sonst 0. Der Input kommt über Leitungen, die excitatorisch (anregend) oder inhibitorisch (hindernd) sein können, jedes Neuron ermittelt nun seinen Gesamtinput als die Summe aller Signale auf den excitatorischen Leitungen vermindert um die Summe aller Signale auf den inhibitorischen Leitungen zu dem Neuron. Erstes Ergebnis dieser Untersuchungen war, daß die durch solche Neuronalen Netze (am grünen Tisch durch Programme) realisierbaren Funktionen genau die im mathematischen Sinne berechenbaren Funktionen sind. Dieser Netztyp realisiert aber noch keine Anpassung (Training/Lernen) an ein gegebenes Problem. WS 2010/11 H. Werner : Datenalyse

Neuronen Der Input ist gekenn-zeichnet durch die Aktivierungs-Funktion. Diese legt fest, wie die über die Verbindungen eingehenden Reize xi mit den Gewichten wi zu einem Gesamtreiz (Aktivierung) zusammengefaßt werden. Die Output-Funktion legt fest, wie der Output aus dem oben berechneten Gesamtreiz ermittelt wird. In dieser Funktion spielt ggf. ein besonderer Parameter Schwellwert eine Rolle. Der Output wird dann über die Verbindungen als Reiz an andere Neuronen geleitet WS 2010/11 H. Werner : Datenalyse

Topologie Ein neuronales Netzwerk besteht aus einer Anzahl von Neuronen (bildlich durch kleine Kreise dargestellt), die untereinander verbunden sein können (die Verbindungen werden hier durch Pfeile dargestellt). Die Struktur aller vorhandener Verbindungen heißt die Topologie des Netzwerks. Sie gibt also Antwort auf die Frage, welches Neuron ist mit welchem Neuron direkt verbunden. Zur Topologie gehört noch die Festlegung, welche Neuronen Input von aussen bekommen bzw. Output nach aussen weitergeben WS 2010/11 H. Werner : Datenalyse

Propagierung Das Verhalten eines neuronalen Netzwerks ist bestimmt durch die Gewichte seiner Verbindungen. eine passende Folge von Werten wird in die Input-Neuronen eingegeben die Neuronen berechnen ihren Output und geben den über die Verbindungen an andere Neuronen weiter Dieser Schritt wird solange wiederholt, bis sich bei keinem Neuron der Input mehr verändert Der Netz-Output ist nun die Folge der Outputs der speziellen Output-Neuronen Bei geschichteten Netzen muss der Input nur von einer Schicht zur jeweils nächsten Schicht weitergegeben (propagiert) werden . Bei Netzen mit Rückkopplungen (zyklen) läuft die Weitergabe so lange, bis das Netz stabil wird, d.h. die Aktivitäten der Neuronen ändern sich nicht mehr. (Es ist mathematisch nicht zwingend, dass ein stabiler Zustand überhaupt erreicht wird!) WS 2010/11 H. Werner : Datenalyse

Modellierung Damit zeigt ein neuronales Netzwerk ein bestimmtes (von den Gewichten abhängiges) Input- Output-Verhalten, das bei hinreichender Ähnlichkeit als Modell für das Input- Output-Verhalten eines Prozesses genommen werden kann. Ziel einer Modellierung ist es also für einen gegebenen Prozess ein geeignetes Netzwerk und darin geeignete Gewichte zu finden, damit der Prozess genau genug beschrieben (simuliert) wird. WS 2010/11 H. Werner : Datenalyse

Training Hat man ein Netzwerk entworfen, das die richtige Anzahl von Input- und Output-Neuronen besitzt, besteht die Aufgabe darin, die Gewichte geeignet zu bestimmen, dies nennt man Training des Netzwerks. Dazu benötigt man zunächst einen Satz Prozessdaten, in denen das Input-Output- Verhalten des Prozesses dokumentiert ist. Die Datensätze des Prozesses gibt man nun in das Netzwerk, das zunächst mit beliebigen Gewichten initialisiert wurde, und vergleicht den Netz-Output mit dem Prozessoutput. Es müssen nun Lernregeln entwickelt werden, die eine Veränderung der Gewichte in so einer Weise erzeugen, dass bei der nächsten Eingabe desselben Datensatzes der gemachte Fehler geringer wird. WS 2010/11 H. Werner : Datenalyse

D-Regel Ein einfaches Beispiel ist die D-Regel, bei der das Gewicht einer Verbindung vergrößert (verkleinert) wird, wenn der Output zu klein (zu groß) ist. Dies ist eine Fehler-orientierte (supervised) Lernregel WS 2010/11 H. Werner : Datenalyse

Hebb-Regel Die Hebb-Regel belohnt (verstärkt) Verbindungen, bei denen beide Neuronen starke Aktivität zeigen. Dies ist eine selbst-organisierte (unsupervised) Lernregel WS 2010/11 H. Werner : Datenalyse

Lernparadigmen Überwachtes Lernen (supervised, mit Lehrer, output-oriented) Das Netzwerk verarbeitet den Trainingsinput und liefert sein Ergebnis, das ein Lehrer mit dem gewünschten Output vergleicht. In Abhängigkeit von dem Fehler wird das Netzwerk so verändert, daß dieser Fehler verringert wird. Unüberwachtes Lernen (selforganized, durch Gewöhnung, input-oriented) Das Netzwerk verarbeitet die Inputs und verändert sich dabei so, daß es auf die präsentierten Inputs immer stärker reagiert. verstärkendes Lernen (reinforced, mit Belohnung, behavior-oriented) Das Netzwerk verarbeitet die Inputs und überprüft, ob seine Aktivitäten eine bestimmte vorgegebene Form haben. Im positiven Fall wird das Verhalten des Netzwerks verstärkt. online-(Einzelschritt)-learning : nach jeder Eingabe wird gelernt offline(Gesamtschritt)-learning: nach Eingabe aller Datensätze der Trainingsdatei wird ein Anpassungsschritt gemacht. WS 2010/11 H. Werner : Datenalyse

Generalisierungstest Die vorhandenen Daten werden in zwei Gruppen geteilt, die Trainingsdaten und die Testdaten Nach erfolgreichem Training mit den Trainingsdaten wird mit den Testdaten überprüft, ob das Netz auch auf diesen zufriedenstellend arbeitet. WS 2010/11 H. Werner : Datenalyse

das Perceptron Ein Perceptron verfügt über eine Input-Schicht, über die n Inputs als Vektor x=(x1,..,xn) eingegeben werden. Es hat n Verbindungen zu dem Output-Neuron mit dem Gewichtsvektor w=(w1,..,wn). Das Output-Neuron hat den Schwellwert s, errechnet seine Aktivität a = xw = x1w1 +..+ xnwn nach der Skalarprodukt-Regel und verwendet die Sprungfunktion (x< s)?0:1 als Output-Funktion. Der Output errechnet sich also aus der Formel: o = 0 falls xw = x1w1 +..+ xnwn < s und o = 1 sonst; es entscheidet also das Vorzeichen des Skalarprodukts yv = x1w1 +..+ xnwn-s der erweiterten Vektoren y=(1,x1,..,xn) und v=(-s,w1,..,wn) über den Output. x1 x2 x3 ... s xn WS 2010/11 H. Werner : Datenalyse

Geometrische Interpretation Die Gleichung wx = s beschreibt eine Hyperebene im n-dimensionalen Raum, auf der der Vektor w senkrecht steht. Der Inputraum wird dadurch in zwei Hälften geteilt, auf dessen einer Hälfte (wx < s) der Wert 0 ausgegeben wird, auf der anderen Hälfte der Wert 1. 1 x1 x2 w WS 2010/11 H. Werner : Datenalyse

die Delta-Regel Das Perceptron wird nach der sogenannten Delta-Regel output-orientiert trainiert. Beim Training werden dem Netzwerk Inputs aus einer Trainingsdatei präsentiert, für die die gewünschten (soll-) Outputs bekannt sind. Die aktuellen Ist-Outputs des Netzes werden mit den Soll-Outputs verglichen und im Fall einer Diskrepanz die Gewichte und der Schwellwert nach folgender Formel angepaßt: Delta-Regel: wi,neu := wi,alt + xi*(Outputsoll - Outputist) Beachte: w0= -b (bias) , x0=1 Der Faktor xi sorgt dafür, daß eine Angleichung nur erfolgt, wenn die Verbindung wi tatsächlich zu dem Output beiträgt. Outputsoll – Outputist ist der aktuelle Fehler des Netzes. WS 2010/11 H. Werner : Datenalyse

Der Perceptron Lernalgorithmus wird nun wie folgt interpretiert Korrektheit Der Perceptron Lernalgorithmus wird nun wie folgt interpretiert Es gibt zwei Mengen Y und Z auf deren Elemente das Perzeptron mit 0 bzw. 1 antworten soll, also yv<0, zv>0 muß für ein geeignetes v gelten. Ist y Y oder z Z ein Element, das noch nicht korrekt behandelt wird (yv>=0 , zv<=0 ), dann erzeugt die Delta-Regel ein neues vneu := valt-y , vneu := valt+z und beim nächsten Versuch mit demseben y, z ist yvneu= yvalt-yy < yvalt, bzw , zvneu= zvalt+zz > zvalt. Das Verfahren beginnt also mit einem beliebigen erweiterten Gewichtsvektor v0 und addiert (subtrahiert) sukzessive erweiterte Inputs z , bei denen der Output noch nicht korrekt ist und wird dabei immer besser. Der Perceptron Konvergenz Satz besagt nun, daß dieses Verfahren nach endlich vielen Schritten bei einer Lösung v endet, falls es überhaupt eine Lösung gibt. WS 2010/11 H. Werner : Datenalyse

Konvergenz Satz SATZ: Wenn ein Perceptron eine Klasseneinteilung überhaupt lernen kann, dann lernt es diese mit der Delta-Regel in endlich vielen Schritten. Problem: Wenn der Lernerfolg bei einem Perceptron ausbleibt, kann nicht direkt erkannt werden, ob 1. das Perceptron die Klassifikation prinzipiell nicht lernen kann, oder 2. der Lernalgorithmus mit seinen endlich vielen Schritten noch nicht fertig geworden ist, denn der Satz als reiner Existenzsatz gibt keinen Anhaltspunkt über eine obere Schranke für die Anzahl von Lernschritten. WS 2010/11 H. Werner : Datenalyse

Konvergenzbeweis Nach Voraussetzung gibt es ein w mit wz>0 für alle zZ und wir beginnen den Algorithmus mit v0=0. (eigentlich müssen wir auch Y mit wy<0 für alle yY betrachten) Sei a das Minimum aller wz>0 und M das Maximum aller z2. vi = z1 +..+ z i , also ist wvi = wz1 +..+ wz i >= i*a. Wegen (wv i)2 <= w2v i2 folgt v i2>= i2*a2/w2 Andererseits ist für alle k <=i stets vk-1zk < 0 also vk2= (vk-1+zk)2 = vk-12 + 2*vk-1zk + zk2 < vk-12+ zk2 also ist v i2< z12+...+ zi2<i*M Es folgt i*M > i2*a2/w2 und damit i < M*w2 / a2 Ohne Kenntnis von w kennen wir weder w2 noch a, also können wir die obere Schranke von i nicht aus dem Beweis bestimmen! WS 2010/11 H. Werner : Datenalyse

unlösbare Probleme Die boolesche Funktion XOR stellt ein nicht linear separierbares Problem dar, weil sich die beiden Klassen auf Diagonalen gegenüberliegen. Die Punkte (0,1) und (1,0) mit den Werten 1 liegen auf einer Diagonale und die beiden anderen auf der zweiten Diagonale. Es gibt also keine Gerade, die Punkte (0,1) und (1,0) sowie (0,0) und (1,1) voneinander trennt . 1 WS 2010/11 H. Werner : Datenalyse

alternative Outputfunktion Wähle man nun als alternative Outputfunktion die Funktion o(a) = 1-(a-1)2 Mit den Gewichten 1 und 1 liefern (0,1) und (1,0) die Aktivität a=1 mit Output 1 und (0,0) bzw. (1,1) die Aktivitäten a=0 bzw. a=2 und damit den Output 0. Problem: Wie trainiert man Netzwerke mit anderen Output Funktionen? 1 WS 2010/11 H. Werner : Datenalyse

zusätzliche Schichten 1 Mit einer Zwischenschicht lassen sich aber zwei trennende Hyperebenen definieren, zwischen denen die eine der Klassen lokalisiert werden kann. komplexere Klassifikationen lassen sich durch Einfügen von Zwischenschichten realisieren. Problem: Wie trainiert man mehrere Schichten? x0=1 x1 x2 x3 sr x4 w WS 2010/11 H. Werner : Datenalyse

Anwendungsgebiete Mustererkennung Handschrift-Erkennung / Spracherkennung / optische Musterkassifikation / EEG-Klassifikation. Codierung / Visualisierung Bildkompression / Sprachsynthese / Rauschfilter / Mapping z.B. in der Medizin. Kontrolle Qualitätskontrolle (optisch, akustisch) / Robotersteuerung / Navigation / Schadens-Diagnostik / EEG-Überwachung. Optimierung Parametervariation in Fertigungsprozessen / TSP-Probleme / Scheduling-Probleme. WS 2010/11 H. Werner : Datenalyse