Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Machine Learning Neuronale Netze (Mitchell Kap. 4)

Ähnliche Präsentationen


Präsentation zum Thema: "Machine Learning Neuronale Netze (Mitchell Kap. 4)"—  Präsentation transkript:

1 Machine Learning Neuronale Netze (Mitchell Kap. 4)

2 Typische Anwendungen Große Menge von Features mit diskreten oder rellen Werten (z.B. Input von Sensoren) Ergebnis kann sein: –Diskreter oder reeller Wert –Vektor mit diskreten oder reellen Werten Möglicherweise fehlerhafte (Trainings-)Daten Lange Lernzeiten sind akzeptabel Schnelle Auswertung des Inputs notwendig Form der Zielfunktion ist unbekannt Das Ergebnis (die Zielfunktion) muss für den Benutzer nicht nachvollziehbar sein (black-box)

3 Typische Beispielanwendungen Erkennung gesprochener Sprache Handschrifterkennung Bildklassifikation Vorhersagen im Finanzbereich Wettervorhersagen Textklassifikation

4

5 Hintergrund Biologische Prozesse: –Neuronen = Nervenzellen im Gehirn –Funktion: Übermittlung von Information –Erhöhung der Zellmembrandurchlässigkeit (Natrium- und Kalium-Ionen) führt zu Spannungsunterschieden –Weiterleitung des Spannungspotentials übers Axon zum synaptischen Spalt –Freisetzung von Neuro-Transmittern –Lernen: das Gewicht der Verbindung zwischen zwei Neuronen erhöht sich, wenn sie zur gleichen Zeit aktiv sind

6 Aufbau eines Neurons Dendriten Axonhügel synaptisches Endköpfchen Axon AP Zeit

7 Neuronenverbindungen

8 Informationsübertragung

9 Neuronale Netze Neuron: Interaktion:

10 Abstrakte Definition Neuronales Netz (U,W,A,O,net,ex): –U ist endliche Menge von Arbeitseinheiten (=Neuronen), die einen Eingabewert verarbeiten und einen Ausgabewert liefern –W definiert die Netzstruktur durch Zuordnung eines Gewichts zur Verbindung zweier Neuronen W: U x U -> R –Für jedes u U ist a u A die Aktivierungsfunktion, die aus externer Aktivierung, bisherigem Aktivierungszustand und der über das Netz vermittelten Aktivierung durch die anderen Neuronen eine neue Aktivierung für ein Neuron u berechnet. a u : R 3 -> R –Für jedes u U ist o u O die Ausgabefunktion: o u : R -> R –Für jedes u U ist net u die Übergangsfunktion –ex ist eine externe Eingabefunktion –Ausserdem sei U O U die Menge der Ausgabeneuronen

11 Neuronale Netze Die grundlegende Arbeitsweise eines neuronalen Netzes kann beschrieben werden als: –Zunächst befindet sich ein Netz in einer Ruhephase oder einem eingefrorenen Zustand. –In der Aktivierungsphase werden durch die externe Aktivierungsfunktion externe Aktivierungen der Eingabeneuronen ermittelt. –Es folgt nun die Arbeitsphase, in welcher die Aktivierungen durch das Netz propagiert werden. Die Arbeitsphase ist spätestens dann abgeschlossen, wenn das Netz erneut in eine Ruhephase übergegangen ist, sich also die Aktivierungen nicht mehr ändern. –Die Aktivierungspotentiale der Ausgabeneuronen werden nun als Ausgabe des Netzes interpretiert und je nach Einsatz bzw. Anwendung des Netzes genutzt.

12 Künstliche und biologische NNs Massive Parallelität der Neuronen Relativ einfache Elemente: –Neuronen verarbeiten die Aktivierungen der Vorgängerneuronen und die Stärke der Verbindung zu einer Ausgabe. Die Neuronen sind durch gewichtete Verbindungen (biologisch: Synapsen) miteinander verbunden.Synapsen Die Verbindungsgewichte bei künstlichen Neuronen sind modifizierbar. Das entspricht der Plastizität der Synapsen beim biologischen Vorbild. Ein Neuron ist mit sehr vielen anderen Neuronen verbunden (hohe Konnektivität).

13 Künstliche vs biologische NNs Künstliches Netz –viel geringere Anzahl der Neuronen ( ) –viel geringere Anzahl von Verbindungen –Stärke einer Synapse wird ausschließlich durch das Gewicht bestimmtSynapse –numerischer Aktivierungswert (Amplitudenmodulation) –zeitliche Vorgänge der Nervenleitung werden vernachlässigt Biologisches Vorbild –ca Neuronen –höhere Anzahl an Verbindungen zwischen den Neuronen –Einfluß verschiedener Neurotransmitter auf die Stärke einer Synapse –impulscodierte Informationsübertragung (Frequenzmodulation) –verzögerte Aktivierung

14 Die Hebbsche Lernregel (1) Problematik der Berechnung der Gewichte selten existiert eine direkte Berechnungs- vorschrift für die jeweiligen Anwendungen Bei der Methode der Berechnung der Gewichte Rückgriff auf die Natur Das menschliche Gehirn ist in der Lage, Funktionen im Laufe des Lebens zu lernen

15 Die Hebbsche Lernregel (2) Im Gehirn erfolgt Lernen durch Änderung der Synapsenstärken Der Psychologe Donald Hebb (1949) stellte die Hypothese auf (bis heute nicht experimentell nachgewiesen), daß sich die Gewichtung der Synapse verstärkt, wenn Neuronen vor oder nach der Synapse gleichzeitig aktiv sind

16 Die Hebbsche Hypothese Die synaptische Eigenschaft (Verstärken oder Hemmen) ändert sich proportional zum Produkt von prä- und postsynaptischer Aktivität

17 Die Hebbsche Hypothese (saloppe Formulierung) Oft genutzte Neuronenverbindungen verstärken sich oder Es bilden sich Trampelpfade oder Übung macht den Meister

18 Math. Formulierung der Hebbschen Lernregel w ij = ·e i ·o j (Hebbsche Regel) wobei w ij das Gewicht von Input e i zum Output o j > 0 eine Konstante

19 Modifikation der Hebbschen Regel w ij = ·e i · o j (Delta-Regel) wobei w ij das Gewicht von Input e i zum Output o j > 0 eine Konstante o j die Differenz zwischen erwünschtem Output und dem zur Zeit des Lernens tatsächlich erzielten Output

20 Neuronale Netze Vorwärtsgerichtetes Netz EingabeneuronenVerdeckte Schicht Ausgabeneuronen

21 Perzeptron Perzeptron: einfacher Spezialfall eines neuronalen Netzes: –Nur 2 Ebenen: Eingabeneuronen und genau 1 Ausgabeneuron –Keine verborgenen Schichten –Ausgabefunktion ist die Identität oder binär

22 Perzeptron Ausgabe des Perzeptrons ist Linear- Kombination: Wobei w i die Gewichte von u i sind und x i die i-te Position des Eingabe-Vektors (i=1... n) w o ist der Schwellenwert (nehme an: x 0 ist konstant 1) Bemerkung: d.h. der Hypothesenraum ist die Menge aller Linearkombinationen

23 Beispiel Logisches und –Sei {1,-1} mögliche Eingaben (1 für wahr, -1 für falsch) –w 0 = -0.8 –w 1 = w 2 = 0.5

24 Training eines Perzeptrons Die Gewichtsveränderung W und die Schwellwertänderung nach der Propagation der Eingabe eines Musters x bei gewünschter Ausgabe t wird wie folgt bestimmt (bei vorgegebener Lernrate ):

25 Perzeptron Man kann zeigen: Die Perzeptron- Lernregel konvergiert wenn –Die Trainingsdaten linear separierbar sind –Die Lernrate ausreichend klein gewählt wurde

26 Delta-Regel Idee: minimiere den quadratischen Fehler –D Trainingsmenge –t d Wert für d D –o d Ausgabe für d

27 Absteigender Gradient

28 Gradient Damit:

29 Algorithmus Jedes Trainingsbeispiel sein ein Paar – ist Inputvektor –t ist der Zielwert – ist die Lernrate Initialisiere jedes w i zu einem beliebigen, kleinen Wert Bis die Abbruchbedingung erfüllt ist: –Initialisiere jedes w i mit 0 –Für jedes Trainingsbeispiel Berechne o t Für jedes Gewicht w i : w i w i + (t – o t )x i –Für jedes w i : w i w i + w i

30 Delta-Regel Der Algorithmus konvergiert gegen eine Hypothese mit minimalem quadratischen Fehler –Falls Lernrate hinreichend klein –Auch für nicht linear separable Daten –Auch für Trainingsdaten die Fehler enthalten Der Algorithmus konvergiert nicht notwendig gegen die optimale Lösung

31 Aufgaben Definieren Sie jeweils das Perzeptron, das folgenden logischen Operatoren entspricht: –nicht (a und b) –a oder b –nicht a oder b Wie wäre exklusives oder zu definieren?


Herunterladen ppt "Machine Learning Neuronale Netze (Mitchell Kap. 4)"

Ähnliche Präsentationen


Google-Anzeigen