Reinforcement Learning

Reinforcement Learning
Das „Reinforcement Learning“-Problem Alexander Schmid

Institut für Informatik
Vortragsgliederung 1. Einleitung 2. Das Labyrinthbeispiel 3. Der Agent und die Umgebung 4. Die Policy 5. Rewards und Returns 6. Markov-Eigenschaft und MDP 7. Value Functions 8. Fazit und Ausblick 9. Literaturreferenzen Institut für Informatik

1. Einleitung – Was ist Reinforcement Learning
Reinforcement Learning ist eine spezielle Art von Lernverfahren „maschinelle Lernverfahren“: Ein Künstliches System lernt (z.b. ein Roboter oder eine Maschine) „überwachtes Lernen“ Ein „Lehrer“ (übergibt die Lehrvorgaben) Künstliches System orientiert sich an Lehrvorgaben Reinforcement Learning Es gibt keinen Lehrer Der Ursprung liegt in der Natur Institut für Informatik

1. Einleitung – Was ist Reinforcement Learning
Beispiel Kleinkind Offensichtlich ist kein Lehrer notwendig Das Kind kann seine Umgebung verändern Das Kind kann die Veränderungen wahrnehmen (Ursache und Wirkung) Erfahrungen helfen dem Kind Ziele zu erreichen Merkmale des Reinforcement Learnings Interaktion mit der Umgebung Sammeln und Anwenden von Erfahrungen „trial-and-error“-Prinzip Belohnungen beim Erreichen von Zielen Institut für Informatik

1. Einleitung – Das „Reinforcement Learning“-Problem
Ziel: Formales Modell für Reinforcement Learning definieren 1. Ansatz Idee: Verallgemeinerung von konkreten Anwendungen Ansatz nicht brauchbar, da zu viele unterschiedliche Anwendungen Beispiel: Fertigungsroboter und Sortiermaschine 2. Ansatz Idee: Beschreibung des Problems anstelle der Lösung Genauer: Beschreibung der einzelnen Elemente Beispiele unter diesem Ansatz mit einander vereinbar Institut für Informatik

2. Das Labyrinthbeispiel
Ein Labyrinth und ein Roboter Lernziel: Roboter soll so schnell wie möglich zum Ausgang finden Eingang Roboter Ausgang Ausgang Institut für Informatik

3. Der Agent und die Umgebung
Das künstliche System wir formal als „ der Agent“ bezeichnet Der Agent… ...ist immer der Teil der lernt …muss zwingend dynamisch bzw. veränderbar sein ...muss mit seiner Umgebung interagieren können Die Umgebung… …ist das Gegenstück zum Agenten …ist statisch (nicht veränderbar) …beinhaltet alles, was nicht explizit zum Agenten gehört Institut für Informatik

Aktionen… …können vom Agenten ausgeführt werden …low-level- oder high-level-Entscheidungen (Beispiel Roboterarm) Zustände… …beschreiben den Momentanzustand der Umgebung …können komplizierte Formen annehmen (Beispiel: Objekterkennung) Zustände und Aktionen liegen kodiert vor Institut für Informatik

3. Der Agent und die Umgebung (Interaktion)
Zustand Reward Aktion Umgebung Agent führt Aktion aus (Zeitpunkt t) Die Umgebung ändert ihren Zustand (Konsequenz aus Aktion) Neuer Zeitschritt beginnt Agent bekommt (neuen) Zustand Agent bekommt Reward (Belohnung) Institut für Informatik

Agent und Umgebung am Labyrinthbeispiel Die Umgebung ist das Labyrinth (inklusive Ein- und Ausgängen) Der Agent ist der Roboter (bzw. sein Rechenwerk) Agent (Roboter) Institut für Informatik

Aktionen und Zustände am Labyrinthbeispiel Institut für Informatik

4. Die Policy Die Policy… …ist das Herzstück des Agenten (trifft die Entscheidungen) …ist eine Abbildung von einem Zustand auf eine Aktion …muss veränderbar sein (Lernvorgang) …wird mit πt notiert (Definition) Das „Exploitation-Exploration-Problem“ Erinnerung: „trial-and-error“-Prinzip „greedy Policy“ (gierige Policy) Institut für Informatik

4. Die Policy „Exploitation-Exploration-Problem“ am Labyrinthbeispiel Institut für Informatik

4. Die Policy Lösung des „Exploitation-Exploration-Problems“ Einbauen von Exploration-Entscheidungen Verfeinerung des Policy-Begriffs (Wahrscheinlichkeitsverteilung) Formal: πt(s,a) Beispiel Zustandsgraph s a b c x y z Institut für Informatik

5. Rewards und Returns Formulierung eines Ziels für den Agenten Definition: rt Rewards liegen in der Umgebung Modellierung eines komplexen Ziels mit Hilfe von Rewards Beispiel: Roboter lernt laufen Rewards können auch falsch gesetzt werden Beispiel: Schach Institut für Informatik

5. Rewards und Returns Rewards im Labyrinthbeispiel -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 80 -1 -1 -1 -1 -1 -1 -1 -1 -1 80 -1 -1 -1 -1 Institut für Informatik

5. Rewards und Returns Returns sind Summen von Rewards Definition: Problem bei kontinuierlichen Prozessen Lösung: Abschwächen der Summenglieder durch Faktor mit < γ < 1 Institut für Informatik

5. Rewards und Returns Returns am Labyrinthbeispiel -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 = 71 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 = 76 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 80 -1 -1 -1 -1 -1 -1 -1 -1 -1 80 -1 -1 -1 -1 Institut für Informatik

6. Markov-Eigenschaft und MDP
Informationsgehalt der Zustände Beispiel: Schach Keine Informationen voriger Zustände nötig (Markov-Eigenschaft) mathematische Formulierung der Markov Eigenschaft Zustände ohne Markov-Eigenschaft: Zustände mit Markov-Eigenschaft: Annäherungen an die Markov-Eigenschaft Institut für Informatik

Markov-Decision-Process (MDP) Alle Zustände besitzen die Markov-Eigenschaft Aussagen über „Reinforcement Learning“ gelten nur für MDPs Mathematischen Eigenschaften des MDP Übergangswahrscheinlichkeit: Folgezustand für Aktion nicht zwingend eindeutig Institut für Informatik

Beispiel für Übergangswahrscheinlichkeit Erweiterter Zustandsgraph: Erwarteter Reward: s a b w x y z Institut für Informatik

7. Value Functions Value Functions bewerten Zustände Definition Die Value Function repräsentiert den „erwarteten Return“: Die Value Functions sind von der Policy abhängig Institut für Informatik

7. Value Functions Auflösen der Formel: s a1 a2 s1 s2 s3 Institut für Informatik

7. Value Functions Action-Value Functions Bewerten ein Zustand-Aktions-Paar Definition: Optimale Value Functions Value Functions konvergieren gegen optimale Value Functions (ausgelernt) Policies mit optimalen Value Functions sind optimale Policies Strategie: Bei optimalen Value Functions eine greedy Policy verwenden Institut für Informatik

7. Value Functions Optimale Value Function am Labyrinthbeispiel -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 22 Schritte Return von 59 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 80 -1 -1 -1 -1 -1 -1 -1 -1 -1 80 -1 -1 -1 -1 Institut für Informatik

8. Fazit und Ausblick Zusammenfassung Ursprung und Allgemeine Beschreibung von Reinforcement Learning Formales Modell für Reinforcement Learning (allen wichtigen Elemente) Anwendungsbeispiele Modell dient als Rahmen für die Entwicklung von Anwendungen Beispiele: Monte Carlo Methoden, Dynamisches Programmieren, Temporal Difference Learning Institut für Informatik

9. Literaturreferenzen [1] Richard S. Sutton and Andrew G. Barto, Reinforcement Learning: An Introduction, Chapter 1 - Introduction, MIT Press, Cambridge, MA, 1998 [2] Richard S. Sutton and Andrew G. Barto, Reinforcement Learning: An Introduction, Chapter 3 - The Reinforcement Learning Problem, MIT Press, Cambridge, MA, 1998 Institut für Informatik

Reinforcement Learning

Ähnliche Präsentationen

Präsentation zum Thema: "Reinforcement Learning"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

Reinforcement Learning

Ähnliche Präsentationen

Präsentation zum Thema: "Reinforcement Learning"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback