Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

1/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Projektgruppe KIMAS Reinforcement Learning in MAS 10.09.2003 Marc Pannenberg.

Ähnliche Präsentationen


Präsentation zum Thema: "1/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Projektgruppe KIMAS Reinforcement Learning in MAS 10.09.2003 Marc Pannenberg."—  Präsentation transkript:

1 1/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Projektgruppe KIMAS Reinforcement Learning in MAS 10.09.2003 Marc Pannenberg

2 2/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Übersicht – Teil 1 Einführung in Reinforcement Learning (RL) Konzept Einfaches RL-Modell Reinforcement Learning Systeme Der Markov-Entscheidungs-Prozess Formale Definition Das RL – Problem Value Functions Beispiel: Gridworld

3 3/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Übersicht – Teil 2 Einführung in Reinforcement Learning Grundlegende Strategien in RL Dynamic Programming Monte Carlo Temporal Difference Reinforcement Learning in Multi Agenten Systemen Besondere Problematik von RL in MAS Beispiel Hunter – Prey Gridworld RL in MAS für PG-KIMAS

4 4/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Konzept Ein Agent in einem RL System: Hat meist nur unvollständiges Wissen über seine Umwelt Agiert auf Grundlage von Trial-and-Error Bekommt keine Hilfestellung von außen Wird belohnt für Aktionen, die ihn einem Ziel näher (bzw. ans Ziel) bringen Bekommt Belohnungen oft erst verzögert Ziel: Belohnungen zu nutzen, um die Aktionen des Agenten so zu beeinflussen, daß die Summe der Belohnungen maximiert wird

5 5/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Einfaches Modell eines RL-Systems Der Agent sieht den Zustand s der Umgebung als Wahrnehmung o und wählt eine Aktion a. Als Ergebnis ändert sich der Zustand der Umgebung, und der Agent bekommt eine neue Wahrnehmung sowie eine Belohnung r. Auch innere Zustände des Agenten gehören hier zur Umwelt! Environment Agent RO ro s a Policy

6 6/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Markov Eigenschaft & Markov Entscheidungsprozess (MDP) Markov Eigenschaft : Alle Information ist im Zustand enthalten. Vergangenheit ist unerheblich. (z.B. Dame- oder Schachspiel) Formal:

7 7/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Formale Definition Das MDP ist ein Quadrupel: Aktionen = Transitionen action a 0.3 0.7

8 8/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Das Reinforcement Learning Problem Wie lernt der Agent? Erforschen unbekannter Zustände und Aktionen Bewertung von Zuständen (Value Function) Erarbeitung eines Planes (Policy) basierend auf vergangenen Bewertungen Verbesserung der Policy Der Agent soll bekannte, gute Policies verfolgen Konflikt: Exploitation vs. Exploration

9 9/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Value Functions Formeln von Sutton & Barto Ch. 3.7 Action Value Function Q s,a r a` s` a s r State Value Function V Der Wert des Zustandes s, wenn von dort aus policy benutzt wird. Der Wert Aktion a in Zustand s zu wählen, wenn von dort aus policy benutzt wird.

10 10/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Policy Beispiel: Gridworld Wahrscheinlichkeit der Transitionen ist z.B.: Belohnung ist –1 bis Endzustand erreicht ist Dynamik des Systems ist vollständig bekannt 123 4567 891011 121314 Aktionen r = -1 für alle Transitionen Formal nur ein Endzustand

11 11/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Policy Beispiel: Gridworld Update von V k nach: 0.0 V k für Zufalls- policy 0.0-6.1-8.4-9.0 -6.1-7.7-8.4 -7.7-6.1 -9.0-8.4-6.10.0 -1.7-2.0 -1.7-2.0 -1.7 -2.0 -1.70.0 0.0 -2.4-2.9-3.0 -2.4-2.9-3.0-2.9 -3.0-2.9-2.4 -3.0-2.9-2.40.0 k = 0k = 10k = 3k = 2k = 1 Greedy Policy abgel. von V k Zufällig Optimal Beispiel von Sutton & Barto Ch. 4.1 (siehe auch für vollständigen Algorithmus) (Bellmann Gleichung)

12 12/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Grundlegende Strategien: Dynamic Programming Value Iteration und Policy Iteration Sweeps durch den Zustandsraum Bei jeder Iteration wird die Schätzung verbessert Wert eines Zustands basiert auf dem geschätzten Wert des Folgezustandes DP-Algorithmen wandeln die Bellmann Gleichung in eine Update-Gleichung um Problem: Benötigt komplettes Modell der Umgebung Sehr rechenaufwendig

13 13/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Grundlegende Strategien: Monte Carlo Methode Benötigt kein Modell Value Function und Policy werden Schritt für Schritt entwickelt Optimale Lösung durch Errechnung des Durchschnitts von Versuchen Berechnung des Wertes eines Zustands basiert nicht auf geschätztem Wert des Folgezustandes Warten auf vollständige Episode nötig

14 14/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Grundlegende Strategien: Monte Carlo Methode Nach jeder Episode mit Policy i : Für jedes (s,a) berechne mit R i ´(s,a) die Belohnung ausgehend von s bis zum Ende der Episode Q(s,a) = average ( R i ´(s,a)) über alle bisher berechneten R i i ist -Greedy policy für Q(s,a) Probleme: Durchschnitte von mehreren policies Konvergiert der Algorithmus immer?

15 15/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Grundlegende Strategien: Temporal Difference Vereinigt Elemente von Dynamic Programming und Monte Carlo Benötigt kein Modell Value-Schätzung aufgrund anderer geschätzter Werte Kein Warten auf Abschluß einer Episode nötig Vorgehen: Action Value Function online lernen:

16 16/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Reinforcement Learning in Multi Agenten Systemen Besondere Problematik: Erschwerte Vorhersagbarkeit (Viel) Größerer Zustandsraum Kommunikation zwischen Agenten

17 17/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Erschwerte Vorhersagbarkeit und größerer Zustandsraum Kollaborative Agenten teilen Belohnung Zustandsraum muß (z.T.) Zustände anderer Agenten mit einschließen

18 18/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Beispiel: Hunter – Prey Gridworld Prey Hunter Aktion Sichtbereich = Zustand Beispiel von Tan (1993) Ziel: Hunter fängt Prey Zustand: h 2 = (-2,2)

19 19/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Beispiel: Hunter – Prey Gridworld Möglichkeiten des Zusammenspiels: Hunter ignorieren einander Hunter teilen Sichtbereich Hunter kommunizieren Episoden oder Policies Hunter nutzen dieselbe Policy Vergleich siehe Tan (1993) SichtweiteTrainingTest Unabhängige Hunter Gemeinsame Sicht 2222 20.38 25.20 24.04 24.52 Unabhängige Hunter Gemeinsame Sicht 3333 14.65 14.02 16.04 12.98 Unabhängige Hunter Gemeinsame Sicht 4444 12.21 11.05 11.53 8.83

20 20/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS RL-MAS für PG-KIMAS Schwer zu realisieren für Capture-the-Flag Vorstellbar für rein kollaborative Systeme Komplexe RL – MAS Systeme noch wenig untersucht und dokumentiert

21 21/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Referenzen Sutton, R. & Barto, A. – Reinforcement Learning: An Introduction (Adaptive Computation and Machine Learning), MIT Press (1998) Tan, M. (1993) - Multi-Agent Reinforcement Learning: Independent vs. Cooperative Agents, Readings in Agents, Morgan Kaufmann (1997) Şenkul Selçuk - Multi-Agent Reinforcement Learning, Thesis (1998) Mansour, Y. - Machine Learning: Foundations Reinforcement Learning, Tel Aviv University, Lecture Notes (1999)


Herunterladen ppt "1/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Projektgruppe KIMAS Reinforcement Learning in MAS 10.09.2003 Marc Pannenberg."

Ähnliche Präsentationen


Google-Anzeigen