Reinforcement Learning Seminar F Gerhard NEUMANN Helmut GRABNER A1: Fahren mit Ball B1: Ball stoppen.

Slides:

Advertisements

Ähnliche Präsentationen

Entscheiden unter Unsicherheit: Heuristiken und Biases

Advertisements

Selbstorganisation und Lernen

Kantenbasierte Verfahren

Entscheidungsunterstützungssysteme IWI Frankfurt 2004

Agent Based Supply Chain Management1 ABSCM-Vorlesung im WS 2001/2002.

TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking

Simulated Annealing Marco Block & Miguel Domingo Seminar : Maschinelles Lernen und Markov KettenSommersemester 2002.

1/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Projektgruppe KIMAS Reinforcement Learning in MAS Marc Pannenberg.

Dachbodenausbau by Michael Lameraner und Florian Kerschbaumer

Informierte Suche.

Sortierverfahren Richard Göbel.

FH-Hof Optimierungsverfahren für kombinatorische Probleme Richard Göbel.

Lernende Agenten Seminar Softwareagenten Wintersemester 2001/2002 Norman Neuhaus.

Prof.Dr.S. Albers Prof. Dr. Th. Ottmann

Vorlesung Informatik 2 Algorithmen und Datenstrukturen (19 - Analyse natürlicher Bäume) Prof. Th. Ottmann.

Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.

1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (21 – Kürzeste Wege) T. Lauer.

Genetische Algorithmen

State Machines Teil 2 States State Invarianten

Reinforcement Learning

Struktur und Funktion von Biopolymeren Elmar Lang

Mittlere Geschwindigkeit

Nachholung der Vorlesung vom Freitag

Vorlesung Die Vorlesung Statistische Methoden II nächste Woche vom 6. Juni ( nächste Woche ) wird auf den 4. Juni (Mittwoch) vorverlegt ! 14 – 16 Zeit:

Chi-Quadrat-Test auf Unabhängigkeit I

Statistische Methoden I WS 2002/2003 Probeklausur Freitag, 13. Dezember statt Vorlesung - Nächsten Freitag!!!

Klausur am :00 bis 13:00 Hörsaal Loefflerstraße und Hörsaal Makarenkostraße.

erstellt von Petra Bader

Neuronale Netzwerke am Beispiel eines MLP

Machine Learning Was wir alles nicht behandelt haben.

Eigenschaften der OLS-Schätzer

Das Differentialgetriebe beim Auto und das Arithmetische Mittel

Objekt- und Selbstlokalisation in der Robotik

Parkieren rechtwinklig rückwärts

Planung Planung Planung Planung Prof. Dr. Bernd Schmidt Planung

Instruktorausbildung 2011/12

Kapitel 1 – Erste Schritte

Sie wollen das Internet

Ausgleichungsrechnung I

Verwendung von Maschinellem Lernen in einer einfachen Computerspielumgebung Anglberger Harald Brandl Stephan Mai 2003.

Tormann Lorenz Maierhofer Die Test-Umgebung Tor: 5x Roboter-Durchmesser Ball: Wird jeweils in Richtung einer zufälligen Position im Tor geschossen.

Gruppe A4 – Stürmer Theoretische Informatik Seminar F Stephan Neumann Michael Groß

Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/

Wie schreibe ich eine Diplom- bzw. Masterarbeit ?

Wahrscheinlichkeitsrechnung

Bereit ???? Nimm dir 10 Minuten Zeit. Ich versuche es dir zu erklären.

Wahrscheinlichkeitsrechnung

Feature-Integration-Theory Merkmals-Integrations-Theorie

KINSHIP BEHAVIOR Seminar aus angewandter Spieltheorie Christian Artner.

Berechenbares Chaos - unvorhersehbare Wirklichkeit

Ein Überblick über verschiedene Verfahren

Integration oberflächenbestimmender Objekte ins DGM Seminar GIS IV SS

Klassifikation und Regression mittels neuronaler Netze

Stoppen der Eingabeaufforderung einer Abfrage j drücken Sie dann F5, oder klicken Sie auf Bildschirmpräsentation > Von Beginn an, um den Kurs zu starten.

Statistik – Regression - Korrelation

Lernmodelle und Experimentelle Untersuchungen

Vom graphischen Differenzieren

Einführung zur Fehlerrechnung

Die Präsentation des Lehrers der 21- allgemeinbildenden Schule des Bezirks Peschkö in Gebiet Buchara von Alijor Jahjojev.

Sebastian Loose DPF – A Perceptual Distance Function for Image Retrieval Proseminar SS 2005 Distanzen und Ähnlichkeitsmaße im Hochdimensionalem.

SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.

Institut für Informationssysteme Technische Universität Braunschweig Institut für Informationssysteme Technische Universität Braunschweig Verdrängung von.

Programmieren mit Variablen

Stress-Management Herzreha am Rhein. Zeitdruck? Zeit als Stressfaktor Auto fahren, Studie 2001 aus Österreich Die Arbeit am Arbeitsplatz mehr Umsatz/Durchlauf.

Institut für Verkehrssystemtechnik Dipl.-Psych. David Käthner Telefon:0531 / Ein kognitives Fahrermodell:

Präsentation transkript:

Reinforcement Learning Seminar F Gerhard NEUMANN Helmut GRABNER A1: Fahren mit Ball B1: Ball stoppen

Aufgabe A1 Fahren mit Ball

A1: Fahren mit Ball Aufgabenstellung zDer Roboter soll mit dem Ball und einer gegebenen Geschwindigkeit gerade vorwärts fahren. zDer Ball befindet sich zu Beginn entweder in der Schaufel oder auf einer geraden Linie vor ihm.

A1: Fahren mit Ball Modell: Zustandsmenge S zEigene Geschwindigkeit xzu klein; OK; zu groß zBallentfernung x(Abgeschätzt durch Radius) xhabe Ball; mittel; weit zsehe Ball nicht z(3 x 3) +1 = 10 Zustände

A1: Fahren mit Ball Modell: Aktionsmenge A zBeschleunigung xstark negative; negative; null; positive; stark positive xstark negative und negative Beschleunigung ist nur möglich, wenn sich der Roboter vorwärts bewegt (=kein Rückwärtsfahren ermöglichen) z5 Aktionen xzusammen mit den 10 Zuständen: 50 State- Action-Paare

A1: Fahren mit Ball Modell: Rewards R zHat Ball und Geschwindigkeit = OK xaufsteigende Rewards +1, +2, +3, bei 10: Ende der Episode: WINNING zsehe Ball nicht xEnde der Episode: LOOSE zsonst x-1 immer (schnellst möglichstes Beenden der Episode, anfahren)

A1: Fahren mit Ball Ergebnisse zFunktioniert xRelative einfach zu Lernen (ca. 30 Episoden) xRL (eigentlich) nicht notwendig (vgl. fwd) zProbleme xKhepera-Stall zu klein -> keine großen Geschwindigkeiten trainierbar

A1: Fahren mit Ball Ergebnisse Episode: 200 Alpha: Epsilon: Gamma: Lambda: Q - Table kein B. v v> v> nahe mittel fern nahe mittel fern nahe mittel fern Aktionen (Beschleunigung): 0.. stark negative 3.. positive 1.. negative 4.. Stark positive 2.. null

Aufgabe B1.1 Ball stoppen

B1.1: Ball stoppen Aufgabenstellung zDer Roboter soll den Ball, der mit einer beliebigen Geschindigkeit von vorne auf ihn zukommt, möglichst gut (schnell) abstoppen und bei sich behalten.

B1.1: Ball stoppen Modell: Zustandsmenge S zBallentfernung yhabe Ball xEigenbewegung ja; nein yklein; mittel xrelative Geschwindigkeit des Balles klein; mittle, hoch, sehr hoch yweit entfernt zsehe Ball nicht z(2 + (2 x 4) + 1) + 1 = 12 Zustände

B1.1: Ball stoppen A bschätzungen zAbstand des Balles x xk und d bestimmt mittels Fit (Mathematica) zGeschwindigkeit x xstarke Unterschiede in der Geschwindigkeits- (Distance-, Radius-) Abschätzung: Daher Mittelung über die gesamte Episode (bis Hat Ball).

B1.1: Ball stoppen Modell: Aktionsmenge A zBeschleunigung xsehr stark negative; stark negative; negative; null; positive (prozentuell) xpositive Beschleunigung ist nur möglich, wenn sich der Roboter rückwärts bewegt (=kein Vorwärtsfahren ermöglichen) z5 Aktionen xzusammen mit den 12 Zuständen: 60 State- Action-Paare

B1.1: Ball stoppen Modell: Rewards R zHat Ball +1 xsobald der Roboter steht und den Ball hat bzw. wenn er ihn wieder verliert: Wartezeit (1 sec) Falls danach Hat Ball: +20 (mit Abfrage!) Ende der Episode: WINNING sonst: negativer Reward gewichtet mit der Entfernung des Balles Ende der Episode: LOOSE zRewards für jeden Zug x-0.1 bei negativen Beschleunigungen x-0.2 immer (schnellst möglichstes Beenden der Episode, abstoppen)

B1.1: Ball stoppen Ergebnisse zFunktioniert nicht gut xSehr schwer zu Lernen (> 200 Episoden) xDiskretisierung zu ungenau (Ballentfernung, Geschwindigkeit) -> nur wenige Ballgeschwindigkeiten gut erlernbar xmit Standard-Schaufel wird Stehenbleiben gelernt (1/4 der Fälle bleibt der Ball hängen) zProbleme xKamera zu langsam für hohe Geschwindigkeiten xGleiche (ähnliche) Situationen mit unterschiedlichem Ausgang -> Verwirrung

B1.1: Ball stoppen Ergebnisse Episode: 300 Alpha: Epsilon: Gamma: Lambda: Q - Table habe fern nahe nahe nahe nahe mittel mittel mittel mittel habe speed > - v v>> v v>> speed=0 Aktionen (Beschleunigung): 0.. sehr stark negative 3.. null 1.. stark negative 4.. Positive (%) 2.. negative

Aufgabe B1.2 Ball stoppen mit linearen Function Approximator (FA)

B1.2: Ball stoppen mit linearen FA Model: Zustände z2 continuierliche States (2D) xBallentfernung xBallgeschwindigkeit y3 verschobene Tilings (vgl. UE) xje 12 x 12 xAnmerkung: 1. Versuch (ohne Tilings) -> ups zuerst Theorie begreifen, dann überlegen, dann programmieren ;-) z3 x (12 x 12) = 432 Parameter (Features) pro Aktion

B1: Ball stoppen mit linearen FA Model: Aktionen, Rewards zAktionen: gleich y5 Aktionen xzusammen mit den 432 Features: 2160 Parameter zRewards: gleich

B1.2: Ball stoppen mit linearen FA Ergebnisse zFunktioniert besser xBessere Ergebnisse, aber noch schwerer zu Lernen (> 700 Episoden für annehmbares Verhalten) zProbleme xum genaue Ergebnisse zu erhalten noch viel größer Menge (!) an Trainingsbeispielen notwendig!

B1.2: Ball stoppen mit linearen FA Ergebnisse Beschleunigungen zaction0: sehr stark negative zaction1: stark negaive zaction2: negative zaction3: null zaction4: positive (%)

Probleme z Roboter Allgemein z RL

Allgemeine Roboterprobleme (Khepera) zFährt Kurven (Kabel) zAusfall des Kamerabildes zzu langsame Kamera xein neues Bild nur alle 50 ms zSchlechte Ballerkennung xSonne, Kabel, Finger, Arm,.. zAbweichungen der Messwerte (Radius) zBall nicht optimal zSchaufel nicht optimal

RL Probleme 1 zwichtigster Faktor: das Model xmöglichst viel Vorwissen einbringen (Aktionen in gewissen States nicht zulassen, Rewards verteilen) ACHTUNG: Roboter lernt zwar schneller, kann jedoch einige Zeit in lokalen Minima stecken bleiben. xAnfangen mit einfachen Beispielen xkann das Model überhaupt funktionieren? Ausprobieren mit optimalen Parameter (wenn möglich) -> Lernen ? xUnsicherheiten möglichst vermeiden statistische Methoden (Mittelungen) gute (lineare) Abschätzungen

RL Probleme 2 zGroße Menge an Trainingsbeispielen xfür 250 Episoden (nach langen üben) ca. 1 Stunde xausprobieren von verschiedenen Modellen, Lernalgorithmen ist mit sehr großen Zeitaufwand verbunden -> Simulator fürs Grobe zsehr viele Freiheitsgrade xParameterauswahl (,,…) xLernalgorithmen (verschiedene Versionen) xE-trace Update xAktionen ausführen bis Statewechsel ? x…

RL Probleme 3 zZufall xdas Lernen hängt sehr vom anfänglichen Zufall ab xzufällige oder falsch geschätzte Ereignisse führen zu sehr starker Verwirrung (POMDPs) xkontrollierte Trainingsumgebung notwendig zAlternative Lösungen auf dieser Ebene wahrscheinlich effizienter xRegler x ausprogrammieren

Klassensystem z Modell erstellen z Anpassungen der Lernalgorithmen

Klassensystem Modell zAbleiten von CEnvironmentModel zFunktionen implementieren xfloat doNextState (CRIAction action) xint getNewState() xfloat getContinousState(int dimension) xvoid getAvailableActions (ActionSet)

Klassensystem Vorhanden zSarsa-, (Q-) Learning z - greedy policy zQ-Table zLineare Function Approximator zLaden und speichern der Parameter

Klassensystem Ausbaubar (Anpassungen) zPolicies (Parameteranpassungen z.B. ) zQ-Functions zLernalgorithmen x(Modelbased Learning) zState Klassen zBehaviors z…