1/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Projektgruppe KIMAS Reinforcement Learning in MAS 10.09.2003 Marc Pannenberg.

Slides:

Advertisements

Ähnliche Präsentationen

Algorithmen und Datenstrukturen

Advertisements

Entscheidungsunterstützungssysteme IWI Frankfurt 2004

DFG-Forschungsprojekt

Agent Based Supply Chain Management1 ABSCM-Vorlesung im WS 2001/2002.

Matrixmultiplikation

Perceptrons and the perceptron learning rule

Programmieren im Großen von Markus Schmidt und Benno Kröger.

PG402 Wissensmanagement Zeitreihen in Datenbanken 1 PG-402 Wissensmanagement: Zeitreihen in Datenbanken Klaus Unterstein.

Statistische Aspekte der PSG

Algorithmen und Komplexität Teil 1: Grundlegende Algorithmen

Einführung Künstliche Intelligenz Steuerungs- und Regelungstechnik

Simulated Annealing Marco Block & Miguel Domingo Seminar : Maschinelles Lernen und Markov KettenSommersemester 2002.

Prinzipal-Agenten Beziehungen

Mathematik des Bridge Tanja Schmedes.

Algorithmen und Komplexität Teil 1: Grundlegende Algorithmen

Proseminar “Software Pioneers” (Prof. Dr. Heike Wehrheim)

1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Einführung in Berechenbarkeit, Formale Sprachen und Komplexitätstheorie Wintersemester.

Informierte Suche.

Sortierverfahren Richard Göbel.

Motivation Richard Göbel.

SciAgents - Eine agentenbasierte Umgebung für verteilte wissenschaftliche Berechnungen Alexander StarkeSeminar Software Agenten

Lernende Agenten Seminar Softwareagenten Wintersemester 2001/2002 Norman Neuhaus.

Algorithmentheorie 6 – Greedy-Verfahren

Dynamische Programmierung (2) Matrixkettenprodukt

Computerkurs: Quantitative Auswertung biochemischer Experimente Tag 8 Einführung in die numerische Integration Aufgabe 18: Simulation einer Assoziationskinetik.

Seminar parallele Programmierung SS 2003

Reguläre Sprachen Karin Haenelt.

© Karin Haenelt 2006, Äquivalenzen Reg.Ausdrücke, Reg.Sprachen, EA ( ) 1 Reguläre Sprachen Karin Haenelt.

Reinforcement Learning

PG 520 Intelligence Service – gezielte Informationen aus dem Internet

Seminar: Architekturbeschreibungssprachen

Christian Schindelhauer

Christian Schindelhauer

UNIVERSITY OF PADERBORN Projektgruppe KIMAS Projektgruppe KIMAS Organisatorisches Andreas Goebels.

Algorithmen des Internets 2005 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität 1 Klausuraufgaben.

1/16 UNIVERSITY OF PADERBORN Projektgruppe KIMAS Projektgruppe KIMAS Agenten Andreas Goebels, Alexander Weimer.

1/25 UNIVERSITY OF PADERBORN Projektgruppe KIMAS Projektgruppe KIMAS MultiAgenten-Systeme Andreas Goebels.

Modellbildung in der Geoökologie (G5, 103) SS 2004

Es folgen die Maßnahmen.

Grundlagen von Kooperation und Koordination

Kapitel III: Stochastische Modelle im Januar haben wir behandelt: 12/3

Punktbeschriftung mit vier Rechtecken gleicher Höhe (Anzahlmaximierung) Julia Löcherbach.

Konzeption und Realisierung von DSS

Machine Learning Was wir alles nicht behandelt haben.

Daten auswerten Boxplots

Reinforcement Learning 2

Person Tracking A Multiple Hypothesis Approach Michael Huber.

Verwendung von Maschinellem Lernen in einer einfachen Computerspielumgebung Anglberger Harald Brandl Stephan Mai 2003.

Tormann Lorenz Maierhofer Die Test-Umgebung Tor: 5x Roboter-Durchmesser Ball: Wird jeweils in Richtung einer zufälligen Position im Tor geschossen.

Abschlussvortrag zur Studienarbeit

Computational Thinking Online Algorithmen [Was ist es wert, die Zukunft zu kennen?] Kurt Mehlhorn Konstantinos Panagiotou.

Theorien, Methoden, Modelle und Praxis

Effiziente Algorithmen

Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/

Dynamische Programmierung mit Anwendung auf Sequence Alignment Problem

Kapitel 18 Dynamische Modelle: Schätzen der Parameter

Kapitel 16 Ökonometrische Modelle

Analyse von Ablaufdiagrammen

Analyse der Laufzeit von Algorithmen

Lernmodelle und Experimentelle Untersuchungen

Artificial Intelligience

Agenten und Multi-Agenten-System

1.1 Einführung und institutionelle Grundlagen  Wagenhofer/Ewert Alle Rechte.

SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler Universität Hamburg Fachbereich Informatik.

Visionen verwirklichenProjekte initalisierenProzesse gestaltenZiele erreichen © Funke ProjektErlebnisse GmbH, Bern

Prognose von Zeitreihen Hans Nübel Hans Nübel Prognose von Zeitreihen Aufbau 1.Motivation 2.Holt-Winters-Verfahren 3.Prognose.

Präsentation transkript:

1/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Projektgruppe KIMAS Reinforcement Learning in MAS Marc Pannenberg

2/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Übersicht – Teil 1 Einführung in Reinforcement Learning (RL) Konzept Einfaches RL-Modell Reinforcement Learning Systeme Der Markov-Entscheidungs-Prozess Formale Definition Das RL – Problem Value Functions Beispiel: Gridworld

3/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Übersicht – Teil 2 Einführung in Reinforcement Learning Grundlegende Strategien in RL Dynamic Programming Monte Carlo Temporal Difference Reinforcement Learning in Multi Agenten Systemen Besondere Problematik von RL in MAS Beispiel Hunter – Prey Gridworld RL in MAS für PG-KIMAS

4/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Konzept Ein Agent in einem RL System: Hat meist nur unvollständiges Wissen über seine Umwelt Agiert auf Grundlage von Trial-and-Error Bekommt keine Hilfestellung von außen Wird belohnt für Aktionen, die ihn einem Ziel näher (bzw. ans Ziel) bringen Bekommt Belohnungen oft erst verzögert Ziel: Belohnungen zu nutzen, um die Aktionen des Agenten so zu beeinflussen, daß die Summe der Belohnungen maximiert wird

5/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Einfaches Modell eines RL-Systems Der Agent sieht den Zustand s der Umgebung als Wahrnehmung o und wählt eine Aktion a. Als Ergebnis ändert sich der Zustand der Umgebung, und der Agent bekommt eine neue Wahrnehmung sowie eine Belohnung r. Auch innere Zustände des Agenten gehören hier zur Umwelt! Environment Agent RO ro s a Policy

6/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Markov Eigenschaft & Markov Entscheidungsprozess (MDP) Markov Eigenschaft : Alle Information ist im Zustand enthalten. Vergangenheit ist unerheblich. (z.B. Dame- oder Schachspiel) Formal:

7/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Formale Definition Das MDP ist ein Quadrupel: Aktionen = Transitionen action a

8/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Das Reinforcement Learning Problem Wie lernt der Agent? Erforschen unbekannter Zustände und Aktionen Bewertung von Zuständen (Value Function) Erarbeitung eines Planes (Policy) basierend auf vergangenen Bewertungen Verbesserung der Policy Der Agent soll bekannte, gute Policies verfolgen Konflikt: Exploitation vs. Exploration

9/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Value Functions Formeln von Sutton & Barto Ch. 3.7 Action Value Function Q s,a r a` s` a s r State Value Function V Der Wert des Zustandes s, wenn von dort aus policy benutzt wird. Der Wert Aktion a in Zustand s zu wählen, wenn von dort aus policy benutzt wird.

10/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Policy Beispiel: Gridworld Wahrscheinlichkeit der Transitionen ist z.B.: Belohnung ist –1 bis Endzustand erreicht ist Dynamik des Systems ist vollständig bekannt Aktionen r = -1 für alle Transitionen Formal nur ein Endzustand

11/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Policy Beispiel: Gridworld Update von V k nach: 0.0 V k für Zufalls- policy k = 0k = 10k = 3k = 2k = 1 Greedy Policy abgel. von V k Zufällig Optimal Beispiel von Sutton & Barto Ch. 4.1 (siehe auch für vollständigen Algorithmus) (Bellmann Gleichung)

12/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Grundlegende Strategien: Dynamic Programming Value Iteration und Policy Iteration Sweeps durch den Zustandsraum Bei jeder Iteration wird die Schätzung verbessert Wert eines Zustands basiert auf dem geschätzten Wert des Folgezustandes DP-Algorithmen wandeln die Bellmann Gleichung in eine Update-Gleichung um Problem: Benötigt komplettes Modell der Umgebung Sehr rechenaufwendig

13/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Grundlegende Strategien: Monte Carlo Methode Benötigt kein Modell Value Function und Policy werden Schritt für Schritt entwickelt Optimale Lösung durch Errechnung des Durchschnitts von Versuchen Berechnung des Wertes eines Zustands basiert nicht auf geschätztem Wert des Folgezustandes Warten auf vollständige Episode nötig

14/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Grundlegende Strategien: Monte Carlo Methode Nach jeder Episode mit Policy i : Für jedes (s,a) berechne mit R i ´(s,a) die Belohnung ausgehend von s bis zum Ende der Episode Q(s,a) = average ( R i ´(s,a)) über alle bisher berechneten R i i ist -Greedy policy für Q(s,a) Probleme: Durchschnitte von mehreren policies Konvergiert der Algorithmus immer?

15/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Grundlegende Strategien: Temporal Difference Vereinigt Elemente von Dynamic Programming und Monte Carlo Benötigt kein Modell Value-Schätzung aufgrund anderer geschätzter Werte Kein Warten auf Abschluß einer Episode nötig Vorgehen: Action Value Function online lernen:

16/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Reinforcement Learning in Multi Agenten Systemen Besondere Problematik: Erschwerte Vorhersagbarkeit (Viel) Größerer Zustandsraum Kommunikation zwischen Agenten

17/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Erschwerte Vorhersagbarkeit und größerer Zustandsraum Kollaborative Agenten teilen Belohnung Zustandsraum muß (z.T.) Zustände anderer Agenten mit einschließen

18/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Beispiel: Hunter – Prey Gridworld Prey Hunter Aktion Sichtbereich = Zustand Beispiel von Tan (1993) Ziel: Hunter fängt Prey Zustand: h 2 = (-2,2)

19/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Beispiel: Hunter – Prey Gridworld Möglichkeiten des Zusammenspiels: Hunter ignorieren einander Hunter teilen Sichtbereich Hunter kommunizieren Episoden oder Policies Hunter nutzen dieselbe Policy Vergleich siehe Tan (1993) SichtweiteTrainingTest Unabhängige Hunter Gemeinsame Sicht Unabhängige Hunter Gemeinsame Sicht Unabhängige Hunter Gemeinsame Sicht

20/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS RL-MAS für PG-KIMAS Schwer zu realisieren für Capture-the-Flag Vorstellbar für rein kollaborative Systeme Komplexe RL – MAS Systeme noch wenig untersucht und dokumentiert

21/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Referenzen Sutton, R. & Barto, A. – Reinforcement Learning: An Introduction (Adaptive Computation and Machine Learning), MIT Press (1998) Tan, M. (1993) - Multi-Agent Reinforcement Learning: Independent vs. Cooperative Agents, Readings in Agents, Morgan Kaufmann (1997) Şenkul Selçuk - Multi-Agent Reinforcement Learning, Thesis (1998) Mansour, Y. - Machine Learning: Foundations Reinforcement Learning, Tel Aviv University, Lecture Notes (1999)