Reinforcement Learning Seminar F Gerhard NEUMANN Helmut GRABNER A1: Fahren mit Ball B1: Ball stoppen.

Slides:



Advertisements
Ähnliche Präsentationen
Entscheiden unter Unsicherheit: Heuristiken und Biases
Advertisements

Selbstorganisation und Lernen
Kantenbasierte Verfahren
Entscheidungsunterstützungssysteme IWI Frankfurt 2004
Agent Based Supply Chain Management1 ABSCM-Vorlesung im WS 2001/2002.
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
Simulated Annealing Marco Block & Miguel Domingo Seminar : Maschinelles Lernen und Markov KettenSommersemester 2002.
1/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Projektgruppe KIMAS Reinforcement Learning in MAS Marc Pannenberg.
Dachbodenausbau by Michael Lameraner und Florian Kerschbaumer
Informierte Suche.
Sortierverfahren Richard Göbel.
FH-Hof Optimierungsverfahren für kombinatorische Probleme Richard Göbel.
Lernende Agenten Seminar Softwareagenten Wintersemester 2001/2002 Norman Neuhaus.
Prof.Dr.S. Albers Prof. Dr. Th. Ottmann
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (19 - Analyse natürlicher Bäume) Prof. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.
1 Vorlesung Informatik 2 Algorithmen und Datenstrukturen (21 – Kürzeste Wege) T. Lauer.
Genetische Algorithmen
State Machines Teil 2 States State Invarianten
Reinforcement Learning
Struktur und Funktion von Biopolymeren Elmar Lang
Mittlere Geschwindigkeit
Nachholung der Vorlesung vom Freitag
Vorlesung Die Vorlesung Statistische Methoden II nächste Woche vom 6. Juni ( nächste Woche ) wird auf den 4. Juni (Mittwoch) vorverlegt ! 14 – 16 Zeit:
Chi-Quadrat-Test auf Unabhängigkeit I
Statistische Methoden I WS 2002/2003 Probeklausur Freitag, 13. Dezember statt Vorlesung - Nächsten Freitag!!!
Klausur am :00 bis 13:00 Hörsaal Loefflerstraße und Hörsaal Makarenkostraße.
erstellt von Petra Bader
Neuronale Netzwerke am Beispiel eines MLP
Machine Learning Was wir alles nicht behandelt haben.
Eigenschaften der OLS-Schätzer
Das Differentialgetriebe beim Auto und das Arithmetische Mittel
Objekt- und Selbstlokalisation in der Robotik
Parkieren rechtwinklig rückwärts
Planung Planung Planung Planung Prof. Dr. Bernd Schmidt Planung
Instruktorausbildung 2011/12
Kapitel 1 – Erste Schritte
Sie wollen das Internet
Ausgleichungsrechnung I
Verwendung von Maschinellem Lernen in einer einfachen Computerspielumgebung Anglberger Harald Brandl Stephan Mai 2003.
Tormann Lorenz Maierhofer Die Test-Umgebung Tor: 5x Roboter-Durchmesser Ball: Wird jeweils in Richtung einer zufälligen Position im Tor geschossen.
Gruppe A4 – Stürmer Theoretische Informatik Seminar F Stephan Neumann Michael Groß
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Wie schreibe ich eine Diplom- bzw. Masterarbeit ?
Wahrscheinlichkeitsrechnung
Bereit ???? Nimm dir 10 Minuten Zeit. Ich versuche es dir zu erklären.
Wahrscheinlichkeitsrechnung
Feature-Integration-Theory Merkmals-Integrations-Theorie
KINSHIP BEHAVIOR Seminar aus angewandter Spieltheorie Christian Artner.
Berechenbares Chaos - unvorhersehbare Wirklichkeit
Ein Überblick über verschiedene Verfahren
Integration oberflächenbestimmender Objekte ins DGM Seminar GIS IV SS
Klassifikation und Regression mittels neuronaler Netze
Stoppen der Eingabeaufforderung einer Abfrage j drücken Sie dann F5, oder klicken Sie auf Bildschirmpräsentation > Von Beginn an, um den Kurs zu starten.
Statistik – Regression - Korrelation
Lernmodelle und Experimentelle Untersuchungen
Vom graphischen Differenzieren
Einführung zur Fehlerrechnung
Die Präsentation des Lehrers der 21- allgemeinbildenden Schule des Bezirks Peschkö in Gebiet Buchara von Alijor Jahjojev.
Sebastian Loose DPF – A Perceptual Distance Function for Image Retrieval Proseminar SS 2005 Distanzen und Ähnlichkeitsmaße im Hochdimensionalem.
SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.
Institut für Informationssysteme Technische Universität Braunschweig Institut für Informationssysteme Technische Universität Braunschweig Verdrängung von.
Programmieren mit Variablen
Stress-Management Herzreha am Rhein. Zeitdruck? Zeit als Stressfaktor Auto fahren, Studie 2001 aus Österreich Die Arbeit am Arbeitsplatz mehr Umsatz/Durchlauf.
Institut für Verkehrssystemtechnik Dipl.-Psych. David Käthner Telefon:0531 / Ein kognitives Fahrermodell:
 Präsentation transkript:

Reinforcement Learning Seminar F Gerhard NEUMANN Helmut GRABNER A1: Fahren mit Ball B1: Ball stoppen

Aufgabe A1 Fahren mit Ball

A1: Fahren mit Ball Aufgabenstellung zDer Roboter soll mit dem Ball und einer gegebenen Geschwindigkeit gerade vorwärts fahren. zDer Ball befindet sich zu Beginn entweder in der Schaufel oder auf einer geraden Linie vor ihm.

A1: Fahren mit Ball Modell: Zustandsmenge S zEigene Geschwindigkeit xzu klein; OK; zu groß zBallentfernung x(Abgeschätzt durch Radius) xhabe Ball; mittel; weit zsehe Ball nicht z(3 x 3) +1 = 10 Zustände

A1: Fahren mit Ball Modell: Aktionsmenge A zBeschleunigung xstark negative; negative; null; positive; stark positive xstark negative und negative Beschleunigung ist nur möglich, wenn sich der Roboter vorwärts bewegt (=kein Rückwärtsfahren ermöglichen) z5 Aktionen xzusammen mit den 10 Zuständen: 50 State- Action-Paare

A1: Fahren mit Ball Modell: Rewards R zHat Ball und Geschwindigkeit = OK xaufsteigende Rewards +1, +2, +3, bei 10: Ende der Episode: WINNING zsehe Ball nicht xEnde der Episode: LOOSE zsonst x-1 immer (schnellst möglichstes Beenden der Episode, anfahren)

A1: Fahren mit Ball Ergebnisse zFunktioniert xRelative einfach zu Lernen (ca. 30 Episoden) xRL (eigentlich) nicht notwendig (vgl. fwd) zProbleme xKhepera-Stall zu klein -> keine großen Geschwindigkeiten trainierbar

A1: Fahren mit Ball Ergebnisse Episode: 200 Alpha: Epsilon: Gamma: Lambda: Q - Table kein B. v v> v> nahe mittel fern nahe mittel fern nahe mittel fern Aktionen (Beschleunigung): 0.. stark negative 3.. positive 1.. negative 4.. Stark positive 2.. null

Aufgabe B1.1 Ball stoppen

B1.1: Ball stoppen Aufgabenstellung zDer Roboter soll den Ball, der mit einer beliebigen Geschindigkeit von vorne auf ihn zukommt, möglichst gut (schnell) abstoppen und bei sich behalten.

B1.1: Ball stoppen Modell: Zustandsmenge S zBallentfernung yhabe Ball xEigenbewegung ja; nein yklein; mittel xrelative Geschwindigkeit des Balles klein; mittle, hoch, sehr hoch yweit entfernt zsehe Ball nicht z(2 + (2 x 4) + 1) + 1 = 12 Zustände

B1.1: Ball stoppen A bschätzungen zAbstand des Balles x xk und d bestimmt mittels Fit (Mathematica) zGeschwindigkeit x xstarke Unterschiede in der Geschwindigkeits- (Distance-, Radius-) Abschätzung: Daher Mittelung über die gesamte Episode (bis Hat Ball).

B1.1: Ball stoppen Modell: Aktionsmenge A zBeschleunigung xsehr stark negative; stark negative; negative; null; positive (prozentuell) xpositive Beschleunigung ist nur möglich, wenn sich der Roboter rückwärts bewegt (=kein Vorwärtsfahren ermöglichen) z5 Aktionen xzusammen mit den 12 Zuständen: 60 State- Action-Paare

B1.1: Ball stoppen Modell: Rewards R zHat Ball +1 xsobald der Roboter steht und den Ball hat bzw. wenn er ihn wieder verliert: Wartezeit (1 sec) Falls danach Hat Ball: +20 (mit Abfrage!) Ende der Episode: WINNING sonst: negativer Reward gewichtet mit der Entfernung des Balles Ende der Episode: LOOSE zRewards für jeden Zug x-0.1 bei negativen Beschleunigungen x-0.2 immer (schnellst möglichstes Beenden der Episode, abstoppen)

B1.1: Ball stoppen Ergebnisse zFunktioniert nicht gut xSehr schwer zu Lernen (> 200 Episoden) xDiskretisierung zu ungenau (Ballentfernung, Geschwindigkeit) -> nur wenige Ballgeschwindigkeiten gut erlernbar xmit Standard-Schaufel wird Stehenbleiben gelernt (1/4 der Fälle bleibt der Ball hängen) zProbleme xKamera zu langsam für hohe Geschwindigkeiten xGleiche (ähnliche) Situationen mit unterschiedlichem Ausgang -> Verwirrung

B1.1: Ball stoppen Ergebnisse Episode: 300 Alpha: Epsilon: Gamma: Lambda: Q - Table habe fern nahe nahe nahe nahe mittel mittel mittel mittel habe speed > - v v>> v v>> speed=0 Aktionen (Beschleunigung): 0.. sehr stark negative 3.. null 1.. stark negative 4.. Positive (%) 2.. negative

Aufgabe B1.2 Ball stoppen mit linearen Function Approximator (FA)

B1.2: Ball stoppen mit linearen FA Model: Zustände z2 continuierliche States (2D) xBallentfernung xBallgeschwindigkeit y3 verschobene Tilings (vgl. UE) xje 12 x 12 xAnmerkung: 1. Versuch (ohne Tilings) -> ups zuerst Theorie begreifen, dann überlegen, dann programmieren ;-) z3 x (12 x 12) = 432 Parameter (Features) pro Aktion

B1: Ball stoppen mit linearen FA Model: Aktionen, Rewards zAktionen: gleich y5 Aktionen xzusammen mit den 432 Features: 2160 Parameter zRewards: gleich

B1.2: Ball stoppen mit linearen FA Ergebnisse zFunktioniert besser xBessere Ergebnisse, aber noch schwerer zu Lernen (> 700 Episoden für annehmbares Verhalten) zProbleme xum genaue Ergebnisse zu erhalten noch viel größer Menge (!) an Trainingsbeispielen notwendig!

B1.2: Ball stoppen mit linearen FA Ergebnisse Beschleunigungen zaction0: sehr stark negative zaction1: stark negaive zaction2: negative zaction3: null zaction4: positive (%)

Probleme z Roboter Allgemein z RL

Allgemeine Roboterprobleme (Khepera) zFährt Kurven (Kabel) zAusfall des Kamerabildes zzu langsame Kamera xein neues Bild nur alle 50 ms zSchlechte Ballerkennung xSonne, Kabel, Finger, Arm,.. zAbweichungen der Messwerte (Radius) zBall nicht optimal zSchaufel nicht optimal

RL Probleme 1 zwichtigster Faktor: das Model xmöglichst viel Vorwissen einbringen (Aktionen in gewissen States nicht zulassen, Rewards verteilen) ACHTUNG: Roboter lernt zwar schneller, kann jedoch einige Zeit in lokalen Minima stecken bleiben. xAnfangen mit einfachen Beispielen xkann das Model überhaupt funktionieren? Ausprobieren mit optimalen Parameter (wenn möglich) -> Lernen ? xUnsicherheiten möglichst vermeiden statistische Methoden (Mittelungen) gute (lineare) Abschätzungen

RL Probleme 2 zGroße Menge an Trainingsbeispielen xfür 250 Episoden (nach langen üben) ca. 1 Stunde xausprobieren von verschiedenen Modellen, Lernalgorithmen ist mit sehr großen Zeitaufwand verbunden -> Simulator fürs Grobe zsehr viele Freiheitsgrade xParameterauswahl (,,…) xLernalgorithmen (verschiedene Versionen) xE-trace Update xAktionen ausführen bis Statewechsel ? x…

RL Probleme 3 zZufall xdas Lernen hängt sehr vom anfänglichen Zufall ab xzufällige oder falsch geschätzte Ereignisse führen zu sehr starker Verwirrung (POMDPs) xkontrollierte Trainingsumgebung notwendig zAlternative Lösungen auf dieser Ebene wahrscheinlich effizienter xRegler x ausprogrammieren

Klassensystem z Modell erstellen z Anpassungen der Lernalgorithmen

Klassensystem Modell zAbleiten von CEnvironmentModel zFunktionen implementieren xfloat doNextState (CRIAction action) xint getNewState() xfloat getContinousState(int dimension) xvoid getAvailableActions (ActionSet)

Klassensystem Vorhanden zSarsa-, (Q-) Learning z - greedy policy zQ-Table zLineare Function Approximator zLaden und speichern der Parameter

Klassensystem Ausbaubar (Anpassungen) zPolicies (Parameteranpassungen z.B. ) zQ-Functions zLernalgorithmen x(Modelbased Learning) zState Klassen zBehaviors z…