Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Reinforcement Learning Das Reinforcement Learning-Problem Alexander Schmid.

Ähnliche Präsentationen


Präsentation zum Thema: "Reinforcement Learning Das Reinforcement Learning-Problem Alexander Schmid."—  Präsentation transkript:

1 Reinforcement Learning Das Reinforcement Learning-Problem Alexander Schmid

2 Institut für Informatik Vortragsgliederung 1. Einleitung 2. Das Labyrinthbeispiel 3. Der Agent und die Umgebung 4. Die Policy 5. Rewards und Returns 6. Markov-Eigenschaft und MDP 7. Value Functions 8. Fazit und Ausblick 9. Literaturreferenzen

3 Institut für Informatik Einleitung – Was ist Reinforcement Learning Reinforcement Learning ist eine spezielle Art von Lernverfahren maschinelle Lernverfahren: Ein Künstliches System lernt (z.b. ein Roboter oder eine Maschine) überwachtes Lernen Ein Lehrer (übergibt die Lehrvorgaben) Künstliches System orientiert sich an Lehrvorgaben Reinforcement Learning Es gibt keinen Lehrer Der Ursprung liegt in der Natur

4 Institut für Informatik Einleitung – Was ist Reinforcement Learning Beispiel Kleinkind Offensichtlich ist kein Lehrer notwendig Das Kind kann seine Umgebung verändern Das Kind kann die Veränderungen wahrnehmen (Ursache und Wirkung) Erfahrungen helfen dem Kind Ziele zu erreichen Merkmale des Reinforcement Learnings Interaktion mit der Umgebung Sammeln und Anwenden von Erfahrungen trial-and-error-Prinzip Belohnungen beim Erreichen von Zielen

5 Institut für Informatik Einleitung – Das Reinforcement Learning-Problem Ziel: Formales Modell für Reinforcement Learning definieren 1. Ansatz Idee: Verallgemeinerung von konkreten Anwendungen Ansatz nicht brauchbar, da zu viele unterschiedliche Anwendungen Beispiel: Fertigungsroboter und Sortiermaschine 2. Ansatz Idee: Beschreibung des Problems anstelle der Lösung Genauer: Beschreibung der einzelnen Elemente Beispiele unter diesem Ansatz mit einander vereinbar

6 Institut für Informatik Das Labyrinthbeispiel Ein Labyrinth und ein Roboter Lernziel: Roboter soll so schnell wie möglich zum Ausgang finden Eingang Ausgang Roboter

7 Institut für Informatik Der Agent und die Umgebung Das künstliche System wir formal als der Agent bezeichnet Der Agent…...ist immer der Teil der lernt …muss zwingend dynamisch bzw. veränderbar sein...muss mit seiner Umgebung interagieren können Die Umgebung… …ist das Gegenstück zum Agenten …ist statisch (nicht veränderbar) …beinhaltet alles, was nicht explizit zum Agenten gehört

8 Institut für Informatik Der Agent und die Umgebung Aktionen… …können vom Agenten ausgeführt werden …low-level- oder high-level-Entscheidungen (Beispiel Roboterarm) Zustände… …beschreiben den Momentanzustand der Umgebung …können komplizierte Formen annehmen (Beispiel: Objekterkennung) Zustände und Aktionen liegen kodiert vor

9 Institut für Informatik Der Agent und die Umgebung (Interaktion) Agent führt Aktion aus (Zeitpunkt t) Die Umgebung ändert ihren Zustand (Konsequenz aus Aktion) Neuer Zeitschritt beginnt Agent bekommt (neuen) Zustand Agent bekommt Reward (Belohnung) Agent Umgebung Aktion ZustandReward

10 Institut für Informatik Der Agent und die Umgebung Agent und Umgebung am Labyrinthbeispiel Die Umgebung ist das Labyrinth (inklusive Ein- und Ausgängen) Der Agent ist der Roboter (bzw. sein Rechenwerk) Agent (Roboter)

11 Institut für Informatik Der Agent und die Umgebung Aktionen und Zustände am Labyrinthbeispiel

12 Institut für Informatik Die Policy Die Policy… …ist das Herzstück des Agenten (trifft die Entscheidungen) …ist eine Abbildung von einem Zustand auf eine Aktion …muss veränderbar sein (Lernvorgang) …wird mit π t notiert (Definition) Das Exploitation-Exploration-Problem Erinnerung: trial-and-error-Prinzip greedy Policy (gierige Policy)

13 Institut für Informatik Die Policy Exploitation-Exploration-Problem am Labyrinthbeispiel

14 Institut für Informatik Die Policy Lösung des Exploitation-Exploration-Problems Einbauen von Exploration-Entscheidungen Verfeinerung des Policy-Begriffs (Wahrscheinlichkeitsverteilung) Formal: π t (s,a) Beispiel Zustandsgraph abc s xyz

15 Institut für Informatik Rewards und Returns Formulierung eines Ziels für den Agenten Definition: r t Rewards liegen in der Umgebung Modellierung eines komplexen Ziels mit Hilfe von Rewards Beispiel: Roboter lernt laufen Rewards können auch falsch gesetzt werden Beispiel: Schach

16 Institut für Informatik Rewards und Returns Rewards im Labyrinthbeispiel 80 80

17 Institut für Informatik Rewards und Returns Returns sind Summen von Rewards Definition: Problem bei kontinuierlichen Prozessen Lösung: Abschwächen der Summenglieder durch Faktor Definition: mit 0 < γ < 1

18 Institut für Informatik Rewards und Returns Returns am Labyrinthbeispiel = = 76

19 Institut für Informatik Markov-Eigenschaft und MDP Informationsgehalt der Zustände Beispiel: Schach Keine Informationen voriger Zustände nötig (Markov-Eigenschaft) mathematische Formulierung der Markov Eigenschaft Zustände ohne Markov-Eigenschaft: Zustände mit Markov-Eigenschaft: Annäherungen an die Markov-Eigenschaft

20 Institut für Informatik Markov-Eigenschaft und MDP Markov-Decision-Process (MDP) Alle Zustände besitzen die Markov-Eigenschaft Aussagen über Reinforcement Learning gelten nur für MDPs Mathematischen Eigenschaften des MDP Übergangswahrscheinlichkeit: Folgezustand für Aktion nicht zwingend eindeutig

21 Institut für Informatik Markov-Eigenschaft und MDP Beispiel für Übergangswahrscheinlichkeit Erweiterter Zustandsgraph: Erwarteter Reward: ab w xy z s

22 Institut für Informatik Value Functions Value Functions bewerten Zustände Definition Die Value Function repräsentiert den erwarteten Return: Die Value Functions sind von der Policy abhängig

23 Institut für Informatik Value Functions Auflösen der Formel: s s1s1 s2s2 s3s3 a1a1 a2a2

24 Institut für Informatik Value Functions Action-Value Functions Bewerten ein Zustand-Aktions-Paar Definition: Optimale Value Functions Value Functions konvergieren gegen optimale Value Functions (ausgelernt) Policies mit optimalen Value Functions sind optimale Policies Strategie: Bei optimalen Value Functions eine greedy Policy verwenden

25 Institut für Informatik Value Functions Optimale Value Function am Labyrinthbeispiel Schritte Return von 59

26 Institut für Informatik Fazit und Ausblick Zusammenfassung Ursprung und Allgemeine Beschreibung von Reinforcement Learning Formales Modell für Reinforcement Learning (allen wichtigen Elemente) Anwendungsbeispiele Zusammenfassung Modell dient als Rahmen für die Entwicklung von Anwendungen Beispiele: Monte Carlo Methoden, Dynamisches Programmieren, Temporal Difference Learning

27 Institut für Informatik Literaturreferenzen [1] Richard S. Sutton and Andrew G. Barto, Reinforcement Learning: An Introduction, Chapter 1 - Introduction, MIT Press, Cambridge, MA, 1998 [2] Richard S. Sutton and Andrew G. Barto, Reinforcement Learning: An Introduction, Chapter 3 - The Reinforcement Learning Problem, MIT Press, Cambridge, MA, 1998


Herunterladen ppt "Reinforcement Learning Das Reinforcement Learning-Problem Alexander Schmid."

Ähnliche Präsentationen


Google-Anzeigen