Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Gruppe A4 – Stürmer Theoretische Informatik Seminar F Stephan Neumann Michael Groß 16.10.2002.

Ähnliche Präsentationen


Präsentation zum Thema: "Gruppe A4 – Stürmer Theoretische Informatik Seminar F Stephan Neumann Michael Groß 16.10.2002."—  Präsentation transkript:

1 Gruppe A4 – Stürmer Theoretische Informatik Seminar F Stephan Neumann Michael Groß 16.10.2002

2 0,8 0,2 Der Playground 0,17 0,060,108 0,04

3 Automatisches Testen – die Testsuite

4 Aufbau einer Testsuite 6 Teilbereiche, Startpositionen: Roboter in Blickrichtung Tor, Ball direkt vor Roboter Roboter in Blickrichtung Tor, Ball vor Roboter, etwas entfernt Roboter in Blickrichtung Tor, Ball direkt hinter Roboter Roboter in Blickrichtung Tor, Ball hinter Roboter, etwas entfernt Roboter in Blickrichtung Tor, Ball auf Roboterposition gespiegelt um die y-Achse Zufällige Roboter & Ball Startposition

5 Der Regler 1: Gehe zum Ball 2: Weiche Hindernis aus (Kollisionsgefahr!) 3: Drehe Dich parallel zum Hindernis und fahre vorwärts(mit Ball) 4: Fahre vorwärts (mit Ball) 5: Schieße (mit Ball) 6: Fahre eine Kurve (mit Ball, Hindernis im Weg) 7: Fahre eine Kurve (mit Ball, freie Bahn) 0: Schieße (Selbstmord, mit Ball) zustandsbasiert 8 Aktionen (Behaviors):

6 Regler – verwendete Features Abstand zum Ball (direkt davor, sonst) Abstand zum Hindernis Winkel zum Hindernis Winkel zum Tor

7 Regler - Entscheidungsbaum Ball genau vor Roboter? Gehe zu Ball Hindernis SEHR nahe? JANEIN Hindernis Ausweichen Tor gerade voraus & Hindernis nicht im Weg? |Hindernis Winkel| < 60°? Hindernis nahe? Hindernis sehr nahe? |Hindernis Winkel| < 30°? vorwärts Parallel zu Hindernis drehen & vorwärts vorwärtsSchießen!Selbstmord Roboter parallel zu Hindernis & Tor voraus ? vorwärts Hindernis zu nahe für Kurve?Kurve Hindernis steht Kurve im Weg?KurveKurve (blockiert)

8 Regler – Ergebnisse: 65,7%

9 Bewertung einer Q-Table – Difference und Total Difference

10 Lernen - Actions 1: Gehe zum Ball 2: Weiche Hindernis aus (Kollisionsgefahr!) 3: Drehe Dich parallel zum Hindernis und fahre vorwärts(mit Ball) 4: Fahre vorwärts (mit Ball) 5: Schieße (mit Ball) 6: Fahre eine Kurve (mit Ball, Hindernis im Weg) 7: Fahre eine Kurve (mit Ball, freie Bahn) 0: Schieße (Selbstmord, mit Ball)

11 Lernen - Statediskretisierungen Abstand zum Ball: = 0.03: 2 Abstand zum Hindernis: = 0.18: 5 |Winkel Hindernis| : = 7 Pi / 6: 6 |Winkel Tor| : = 0.05 : 2 States = 2 * 5 * 6 * 2 = 120; |QTable| = States * Actions = 960

12 Statediskretisierungen graphisch

13 Lernreihe 1: Rewardmodell Erfolg: 100 Fehlschlag: -100 Behavior beendet sich sofort: -10

14 Lernreihe 1 - Ergebnisse EpisodenErfolgFehlschlagProzent Geänderte ActionsT-Diff 15247020725,27%120450 291013114647,29%58962 344713314448,01%32889 500011915842,96%331758 645913014746,93%252563 680514413351,99%102711 730913614149,10%122915 779713614149,10%163033 833214013750,54%93274 1000114413351,99%134259 1453913714049,46%85696

15 Lernreihe 1 - Ergebnisse

16 Lernreihe 1, 1524 Episoden, 25,3%

17 Lernreihe 1, 2910 Episoden, 47,3%

18 Lernreihe 1, 3557 Episoden, 48,0%

19 Lernreihe 1, 5000 Episoden, 43,0%

20 Lernreihe 1, 6459 Episoden, 46,9%

21 Lernreihe 1, 6805 Episoden, 52,0%

22 Lernreihe 1, 7309 Episoden, 49,1%

23 Lernreihe 1, 7797 Episoden, 49,1%

24 Lernreihe 1, 8332 Episoden, 50,5%

25 Lernreihe 1, 10001 Episoden, 52,0%

26 Lernreihe 1, 14539 Episoden, 49,5%

27 Regler 65,7% (zum Vergleich)

28 Lernreihe 2 - Rewardmodell Erfolg: 100 Timeout: -0,5 Sonstiger Fehlschlag: -100 Behavior beendet sich sofort: -10 Bahavior Selbstmord: -50 Abbruch nach 40x selber Action im selben State (-100)

29 Lernreihe 2 - Ergebnisse EpisodenErfolgFehlerProzent Geänderte ActionsT-Diff 196613514248,74%1202203 291013114647,29%272207 322214113650,90%293411 414211815942,60%283071 66528419330,32%182850

30 Lernreihe 2 - Ergebnisse

31 Lernreihe 2, 1966 Episoden, 48,7%

32 Lernreihe 2, 2910 Episoden, 47,3%

33 Lernreihe 2, 3222 Episoden, 50,9%

34 Lernreihe 2, 4142 Episoden, 42,6%

35 Lernreihe 2, 6652 Episoden, 30,3%

36 Regler 65,7% (zum Vergleich)

37 Lernreihe 3 - Ergebnisse EpisodenErfolgFehlerProzent Geänderte ActionsT-Diff 196613514248,74%1202203 652413614149,10%235509 953213813949,82%66769

38 Lernreihe 3 - Ergebnisse

39 Lernreihe 3, 1966 Episoden, 48,7%

40 Lernreihe 3, 6524 Episoden, 49,1%

41 Lernreihe 3, 9532 Episoden, 49,8%

42 Regler 65,7% (zum Vergleich)

43 Alle Tests zusammen: Lernreihe 1Lernreihe 2Lernreihe 3

44 Behavior RL Problem Stetiger Zustandsraum. Stetige Aktionen.

45 Lösung 1: Diskretisierung Zu grobe Einteilung – Wichtige Unterschiede im Zustandsraum können nicht erkannt werden. Zu feine Einteilung – Riesiger Zustandsraum, lange Zeit, bis auch nur alle wesentlichen Zustände einmal auftreten. Der Agent kann nicht von bereits bekannten Zuständen auf neu auftretende, aber ähnliche Zustände schließen. Es ist schwer, bekanntes Wissen einzubringen.

46 Erwünschte Eigenschaften des RL Direktes Verarbeiten des stetigen Zustandsraum. Direkte Ausgabe der stetigen Aktionen. Keine versteckte Diskretisierung. Agent soll beim Auftreten eines unbekannten Zustands eine möglichst gute Aktion wählen. Möglichkeit, das vom Regler bekannte Wissen einzubringen.

47 Aktion/Reward Funktion Funktion durch n Kontrollpunkte (2 mal n Parameter) definiert. Funktion geht garantiert durch höchsten Kontrollpunkt – leichtes ermitteln des Maximums.

48 Wire Fitting Position der Kontrollpunkte soll vom Zustandsvektor x abhängen, y=f(u) ist dabei der zu erwartende reward. xZustandsvektor uAktion(svektor) Q(x,u)erwarteter Reward cSmoothing Faktor

49 Kontrollpunkte mit ANN bestimmen

50 Einbringen von Vorwissen

51 Lernen mit Wire RL Ermittle die beste Aktion u und dazugehörendes Q(x t, u) für Statevektor x t. Führe Aktion aus, ermittle Reward r t+1 und neuen State x t+1 (beachte ||x t+1 - x t ||). Q-Learning Verwende Gradient Descent, um die Kontrollpunkte zu verändern. Verwende Gradient Descent, um das ANN an die neuen Kontrollpunkte anzupassen.

52 Beispiel

53 Probleme Verlernen. Unstetige Werte. Nicht skalierte Werte.


Herunterladen ppt "Gruppe A4 – Stürmer Theoretische Informatik Seminar F Stephan Neumann Michael Groß 16.10.2002."

Ähnliche Präsentationen


Google-Anzeigen