Reinforcement Learning

Slides:



Advertisements
Ähnliche Präsentationen
DFG-Forschungsprojekt
Advertisements

Agent Based Supply Chain Management1 ABSCM-Vorlesung im WS 2001/2002.
Fast Fourier Transformation
Perceptrons and the perceptron learning rule
Software-Engineering II Eingebettete Systeme, Softwarequalität, Projektmanagement Prof. Dr. Holger Schlingloff Institut für Informatik der Humboldt.
Prof. Dr. W. Conen 15. November 2004
CME – koronaler Massenauswurf Dirk Gerbig
Einführung Künstliche Intelligenz Steuerungs- und Regelungstechnik
1/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Projektgruppe KIMAS Reinforcement Learning in MAS Marc Pannenberg.
1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Einführung in Berechenbarkeit, Formale Sprachen und Komplexitätstheorie Wintersemester.
Standortfaktoren INTERN - Ausdrucksstark präsentieren.
Kapitel 4 Syntaktische Analyse: LR Parsing.
Stefanie Selzer - Pascal Busch - Michael Kropiwoda
Der Einstieg in das Programmieren
Java: Objektorientierte Programmierung
von Reaktionen und chemischen Suppen
Seminar zum pi-Kalkül betreut von Andreas Rossberg
Heuristiken Automatic Problem Solving Institut für Informatik
Lernende Agenten Seminar Softwareagenten Wintersemester 2001/2002 Norman Neuhaus.
WS Algorithmentheorie 05 - Treaps Prof. Dr. Th. Ottmann.
Dynamische Programmierung (2) Matrixkettenprodukt
Prof. Dr. S. Albers Prof. Dr. Th. Ottmann
WS Algorithmentheorie 08 – Dynamische Programmierung (2) Matrixkettenprodukt Prof. Dr. Th. Ottmann.
WS 06/07 Algorithmentheorie 01 - Einleitung Prof. Dr. Th. Ottmann Tobias Lauer.
Kapitel 6 Differenzierbarkeit. Kapitel 6: Differenzierbarkeit © Beutelspacher Juni 2005 Seite 2 Inhalt 6.1 Die Definition 6.2 Die Eigenschaften 6.3 Extremwerte.
Vorlesung: 1 Betriebssysteme 2007 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebssysteme Hochverfügbarkeit (Einführung) 3. Quartal.
Vorlesung: 1 Betriebssysteme 2008 Prof. Dr. G. Hellberg Studiengang Mechatronik FHDW Vorlesung: Betriebssysteme Hochverfügbarkeit (Einführung) 2. Quartal.
Institut für Kartographie und Geoinformation Diskrete Mathematik I Vorlesung Bäume-
PKJ 2005/1 Stefan Dissmann Rückblick auf 2005 Was zuletzt in 2005 vorgestellt wurde: Klassen mit Attributen, Methoden und Konstruktoren Referenzen auf.
PG 520 Intelligence Service – gezielte Informationen aus dem Internet
Vorlesung 3: Verschiedenes Universität Bielefeld – Technische Fakultät AG Rechnernetze und verteilte Systeme Peter B. Ladkin
1/16 UNIVERSITY OF PADERBORN Projektgruppe KIMAS Projektgruppe KIMAS Agenten Andreas Goebels, Alexander Weimer.
1/25 UNIVERSITY OF PADERBORN Projektgruppe KIMAS Projektgruppe KIMAS MultiAgenten-Systeme Andreas Goebels.
Modellbildung in der Geoökologie (G5, 103) SS 2004
Was ist ein Modell ? Repräsentiert Zugang: Mathematik Zugang: Empirie
Normalformen Normalisieren Schlüssel
6 Normalformen Normalisieren Schlüssel
1 Vorlesung 3 Verschiedenes Peter B. Ladkin
Ralf KüstersDagstuhl 2008/11/30 2 Ralf KüstersDagstuhl 2008/11/30 3.
Vorlesung Biometrie für Studierende der Veterinärmedizin Begriff der Zufallsgröße Ergebnisse von Zufallsexperimenten werden als Zahlen dargestellt:
Machine Learning Was wir alles nicht behandelt haben.
PRJ 2007/1 Stefan Dissmann Verkettete datenstruktur: Liste Problem: Liste, die eine beliebige Zahl von Elementen verwaltet Operationen: Erzeugen, Anfügen,
Reinforcement Learning 2
Planung Planung Planung Planung Prof. Dr. Bernd Schmidt Planung
? Was ist Informatik? Was ist Informatik? Alexander Lange
2006 Franz Nowak, Private Network Solutions 1 TOCICO Konferenz 2007 Ein Überblick.
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Verwendung von Maschinellem Lernen in einer einfachen Computerspielumgebung Anglberger Harald Brandl Stephan Mai 2003.
Theorien, Methoden, Modelle und Praxis
Polynome und schnelle Fourier-Transformation
Dynamische Programmierung mit Anwendung auf Sequence Alignment Problem
Einführung in die Informatik für Naturwissenschaftler und Ingenieure
Einführung in die Programmierung Wintersemester 2013/14 Prof. Dr. Günter Rudolph Lehrstuhl für Algorithm Engineering Fakultät für Informatik TU Dortmund.
Auslegung eines Vorschubantriebes
Modellieren dynamischer Prozesse
Analyse von Ablaufdiagrammen
Formale Sprachen Reguläre Sprachen Rudolf FREUND, Marian KOGLER.
Modellbildung und Simulation
Mathematik 1. Studienjahr Modul M1: Elemente der Mathematik
Analyseprodukte numerischer Modelle
Pflanzenlernkartei 3 Autor: Rudolf Arnold. Pflanze 1 Gattung Merkmale Schädigung Bekämpfung.
Pflanzenlernkartei 2 Autor: Rudolf Arnold. Pflanze 1 Gattung Merkmale Schädigung Bekämpfung.
Arne Vater Wintersemester 2006/ Vorlesung
Modellbasierte Software-Entwicklung eingebetteter Systeme
Lernmodelle und Experimentelle Untersuchungen
Agenten und Multi-Agenten-System
Modellbildung und Simulation
Lernen 1. Vorlesung Ralf Der Universität Leipzig Institut für Informatik
AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler Universität Hamburg Fachbereich Informatik.
Spärliche Kodierung von Videos natürlicher Szenen Vortragender: Christian Fischer.
 Präsentation transkript:

Reinforcement Learning Das „Reinforcement Learning“-Problem Alexander Schmid

Institut für Informatik Vortragsgliederung 1. Einleitung 2. Das Labyrinthbeispiel 3. Der Agent und die Umgebung 4. Die Policy 5. Rewards und Returns 6. Markov-Eigenschaft und MDP 7. Value Functions 8. Fazit und Ausblick 9. Literaturreferenzen Institut für Informatik

1. Einleitung – Was ist Reinforcement Learning Reinforcement Learning ist eine spezielle Art von Lernverfahren „maschinelle Lernverfahren“: Ein Künstliches System lernt (z.b. ein Roboter oder eine Maschine) „überwachtes Lernen“ Ein „Lehrer“ (übergibt die Lehrvorgaben) Künstliches System orientiert sich an Lehrvorgaben Reinforcement Learning Es gibt keinen Lehrer Der Ursprung liegt in der Natur Institut für Informatik

1. Einleitung – Was ist Reinforcement Learning Beispiel Kleinkind Offensichtlich ist kein Lehrer notwendig Das Kind kann seine Umgebung verändern Das Kind kann die Veränderungen wahrnehmen (Ursache und Wirkung) Erfahrungen helfen dem Kind Ziele zu erreichen Merkmale des Reinforcement Learnings Interaktion mit der Umgebung Sammeln und Anwenden von Erfahrungen „trial-and-error“-Prinzip Belohnungen beim Erreichen von Zielen Institut für Informatik

1. Einleitung – Das „Reinforcement Learning“-Problem Ziel: Formales Modell für Reinforcement Learning definieren 1. Ansatz Idee: Verallgemeinerung von konkreten Anwendungen Ansatz nicht brauchbar, da zu viele unterschiedliche Anwendungen Beispiel: Fertigungsroboter und Sortiermaschine 2. Ansatz Idee: Beschreibung des Problems anstelle der Lösung Genauer: Beschreibung der einzelnen Elemente Beispiele unter diesem Ansatz mit einander vereinbar Institut für Informatik

2. Das Labyrinthbeispiel Ein Labyrinth und ein Roboter Lernziel: Roboter soll so schnell wie möglich zum Ausgang finden Eingang Roboter Ausgang Ausgang Institut für Informatik

3. Der Agent und die Umgebung Das künstliche System wir formal als „ der Agent“ bezeichnet Der Agent… ...ist immer der Teil der lernt …muss zwingend dynamisch bzw. veränderbar sein ...muss mit seiner Umgebung interagieren können Die Umgebung… …ist das Gegenstück zum Agenten …ist statisch (nicht veränderbar) …beinhaltet alles, was nicht explizit zum Agenten gehört Institut für Informatik

3. Der Agent und die Umgebung Aktionen… …können vom Agenten ausgeführt werden …low-level- oder high-level-Entscheidungen (Beispiel Roboterarm) Zustände… …beschreiben den Momentanzustand der Umgebung …können komplizierte Formen annehmen (Beispiel: Objekterkennung) Zustände und Aktionen liegen kodiert vor Institut für Informatik

3. Der Agent und die Umgebung (Interaktion) Zustand Reward Aktion Umgebung Agent führt Aktion aus (Zeitpunkt t) Die Umgebung ändert ihren Zustand (Konsequenz aus Aktion) Neuer Zeitschritt beginnt Agent bekommt (neuen) Zustand Agent bekommt Reward (Belohnung) Institut für Informatik

3. Der Agent und die Umgebung Agent und Umgebung am Labyrinthbeispiel Die Umgebung ist das Labyrinth (inklusive Ein- und Ausgängen) Der Agent ist der Roboter (bzw. sein Rechenwerk) Agent (Roboter) Institut für Informatik

3. Der Agent und die Umgebung Aktionen und Zustände am Labyrinthbeispiel Institut für Informatik

Institut für Informatik 4. Die Policy Die Policy… …ist das Herzstück des Agenten (trifft die Entscheidungen) …ist eine Abbildung von einem Zustand auf eine Aktion …muss veränderbar sein (Lernvorgang) …wird mit πt notiert (Definition) Das „Exploitation-Exploration-Problem“ Erinnerung: „trial-and-error“-Prinzip „greedy Policy“ (gierige Policy) Institut für Informatik

Institut für Informatik 4. Die Policy „Exploitation-Exploration-Problem“ am Labyrinthbeispiel Institut für Informatik

Institut für Informatik 4. Die Policy Lösung des „Exploitation-Exploration-Problems“ Einbauen von Exploration-Entscheidungen Verfeinerung des Policy-Begriffs (Wahrscheinlichkeitsverteilung) Formal: πt(s,a) Beispiel Zustandsgraph s a b c x y z Institut für Informatik

Institut für Informatik 5. Rewards und Returns Formulierung eines Ziels für den Agenten Definition: rt Rewards liegen in der Umgebung Modellierung eines komplexen Ziels mit Hilfe von Rewards Beispiel: Roboter lernt laufen Rewards können auch falsch gesetzt werden Beispiel: Schach Institut für Informatik

Institut für Informatik 5. Rewards und Returns Rewards im Labyrinthbeispiel -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 80 -1 -1 -1 -1 -1 -1 -1 -1 -1 80 -1 -1 -1 -1 Institut für Informatik

Institut für Informatik 5. Rewards und Returns Returns sind Summen von Rewards Definition: Problem bei kontinuierlichen Prozessen Lösung: Abschwächen der Summenglieder durch Faktor mit 0 < γ < 1 Institut für Informatik

Institut für Informatik 5. Rewards und Returns Returns am Labyrinthbeispiel -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1-1-1-1-1-1-1-1-1+80 = 71 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1-1-1-1+80 = 76 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 80 -1 -1 -1 -1 -1 -1 -1 -1 -1 80 -1 -1 -1 -1 Institut für Informatik

6. Markov-Eigenschaft und MDP Informationsgehalt der Zustände Beispiel: Schach Keine Informationen voriger Zustände nötig (Markov-Eigenschaft) mathematische Formulierung der Markov Eigenschaft Zustände ohne Markov-Eigenschaft: Zustände mit Markov-Eigenschaft: Annäherungen an die Markov-Eigenschaft Institut für Informatik

6. Markov-Eigenschaft und MDP Markov-Decision-Process (MDP) Alle Zustände besitzen die Markov-Eigenschaft Aussagen über „Reinforcement Learning“ gelten nur für MDPs Mathematischen Eigenschaften des MDP Übergangswahrscheinlichkeit: Folgezustand für Aktion nicht zwingend eindeutig Institut für Informatik

6. Markov-Eigenschaft und MDP Beispiel für Übergangswahrscheinlichkeit Erweiterter Zustandsgraph: Erwarteter Reward: s a b w x y z Institut für Informatik

Institut für Informatik 7. Value Functions Value Functions bewerten Zustände Definition Die Value Function repräsentiert den „erwarteten Return“: Die Value Functions sind von der Policy abhängig Institut für Informatik

Institut für Informatik 7. Value Functions Auflösen der Formel: s a1 a2 s1 s2 s3 Institut für Informatik

Institut für Informatik 7. Value Functions Action-Value Functions Bewerten ein Zustand-Aktions-Paar Definition: Optimale Value Functions Value Functions konvergieren gegen optimale Value Functions (ausgelernt) Policies mit optimalen Value Functions sind optimale Policies Strategie: Bei optimalen Value Functions eine greedy Policy verwenden Institut für Informatik

Institut für Informatik 7. Value Functions Optimale Value Function am Labyrinthbeispiel -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 22 Schritte Return von 59 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 80 -1 -1 -1 -1 -1 -1 -1 -1 -1 80 -1 -1 -1 -1 Institut für Informatik

Institut für Informatik 8. Fazit und Ausblick Zusammenfassung Ursprung und Allgemeine Beschreibung von Reinforcement Learning Formales Modell für Reinforcement Learning (allen wichtigen Elemente) Anwendungsbeispiele Modell dient als Rahmen für die Entwicklung von Anwendungen Beispiele: Monte Carlo Methoden, Dynamisches Programmieren, Temporal Difference Learning Institut für Informatik

Institut für Informatik 9. Literaturreferenzen [1] Richard S. Sutton and Andrew G. Barto, Reinforcement Learning: An Introduction, Chapter 1 - Introduction, MIT Press, Cambridge, MA, 1998 [2] Richard S. Sutton and Andrew G. Barto, Reinforcement Learning: An Introduction, Chapter 3 - The Reinforcement Learning Problem, MIT Press, Cambridge, MA, 1998 Institut für Informatik