Seminar F Aufgabe B: Ball-Interception DRAXL Wolfgang HALLER Andreas.

Slides:



Advertisements
Ähnliche Präsentationen
Kumulierte Häufigkeit
Advertisements

Praktikum Mobile Roboter
V09 Fallende Formen, Geschwindigkeitsregelung und Timing Daniel Ebner Spieleprogrammierung mit DirectX und C++
Mohammad Dawood 1,2, Florian Büther, Norbert Lang 1, Xiaoyi Jiang 2, Klaus P Schäfers 1, Otmar Schober 1 1 Klinik für Nuklearmedizin, Universitätsklinikum.
Mittlere Geschwindigkeit
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Rechner Praktikum Numerische Gasdynamik Nuss-Projekt 2: Riemannlöser
Rechneraufbau & Rechnerstrukturen, Folie 12.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 12.
Objekt- und Selbstlokalisation in der Robotik
Meine neue Wohnung
Warum ich meine Sekretärin feuerte!
Fragen, die du dir schon immer gestellt hast…
Das Multifacetten-Korrekturverfahren beim DSD. Fehleranfälligkeit bei Leistungsbeurteilungen.
Diplom-Kaufmann Rainer Schenk – Steuerberater
Abschluss der SEK I Elternversammlung der 10. Klassen am
WER DU BIST.
Die Denkweise der Kinder, das Lernen und Lehren.
Medien zwischen Technologie und Gesellschaft Dozent: Herr Prof. Dr. Manfred Thaller SS 13 Referent: Christian Braun.
Powerpoints bestellen ?? sende eine Mail an : Blondinenwitz.
Satzglieder, Subjekte und
Intelligente selbständige Roboter Science Fiction oder Science
Powerpoints bestellen-Mail an In ein paar Sekunden kommen Sie in die Welt der MAGIE !
Aspekte des Lehrens und Lernens mit 60-Minuten-Einheiten
Probestudium Graphentheorie Die Mathematik von FACEBOOK
Zielmodellierung und „Aspektorientierung“
Gelegentlich wird nach einer Uhr in Powerpoint gefragt.
Bildschirm-Innenseiten-Reiniger
TROCKENE BLAETTER.
Artgerechte Pferdehaltung
Anleitung zu einem glücklichen Leben
Powerpoints bestellen-Mail an Wir hören immer von Regeln aus Sicht der Frauen. Hier sind endlich die Regeln aus Sicht.
- Untersuchung von Realitätsnahen Problemen mit Funktionen
Eine Ehepaar unterhält sich nach langer Ehe.
Warteschlangen Modelle
Deutsch 3, KM2, Kapitel 7: Adjektiv-Endungen nach ein- Wörtern.
Bewegungsentwicklung Unterstützung und Hindernisse im 1. Lebensjahr
STEPS Schule wird noch im Personalhaus vom Bellevue Resort gehalten. Mit Meeresalgenzucht wird fortgefahren, sowie auch mit unserer Medical Mission,
Human Factors von Andreas Winkler.
Vortrag für Fachdidaktik
Handlingsystem zum automatischen Einsortieren von Gleitlager - Bundbuchsen Frank Schulz (Fa. Mitutoyo Messgeräte GmbH) Alexander Mehl (Fa. Trützschler.
Wie Programmiere ich in der Roboter-AG???
Für ihre Kunden legen sich Adrian und Markus Michel ins Zeug.
Überblick der aktuellen Gesetzesänderungen des Umsatzsteuergesetzes
Ohne Euch wäre dieses Werk nicht möglich! Dankeschön.
Exposé V ermietung einer Gewerbefläche von 320 qm Further Straße 96, Neuss Provisionsfrei 1.
Wort des Lebens Mai 2010 Wer mich liebt, wird von meinem Vater geliebt werden, und auch ich werde ihn lieben und mich ihm offenbaren. (Joh 14,21)
AUS DER SICHT DES HIMMELS IST WEIHNACHTEN IMMER EIN FEST DER LIEBE
Als Gott die Frau schuf, war es schon sehr spät am 6. Tag.
Ihre Hochzeitstauben® Weiße Hochzeitstauben … das überraschend andere Geschenk!
OpenSource Loadbalancer im Vergleich zu kommerziellen systemem Thomas stahl Diplomarbeit SS 2002.
Gender Mainstreaming.
Performer PRIMUS ® und PRIMUS 50plus ® Generationen -Versorgung.
COMENIUS PROJEKTTREFFEN - PITEA – Projektpraktikum KFZ-Techniker, 4. Klasse Grundauswertung Teil 1 der Befragung: 1) Hast du dich in.
SELTSAM ! Hier eine kleine mathematische Übung, die viele zum Staunen bringen wird...
Gründe für den Außenhandel
Tormann Lorenz Maierhofer Die Test-Umgebung Tor: 5x Roboter-Durchmesser Ball: Wird jeweils in Richtung einer zufälligen Position im Tor geschossen.
Wo ist die "Notbremse" in den Spielregeln definiert?
by Chrissi Bruckner & Chrissi Lipp
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
How to make a Pixar Movie
Regelfragen für Schiedsrichter-Anwärter
REGEL - 16 ABSTOß Schiedsrichter 1 Regelfragen für Schiedsrichter-Anwärter VSL - Bernd Domurat.
Hier die Frage formulieren ...
8D-Report - completion by supplier: Excel /
Ein PC-Game selber machen
Sinussatz? Cosinussatz?
Regelfragen für Schiedsrichter-Anwärter
DER BALL DER IMMER GRÖSSER WURDE !
Softwarepraktikum Zwischenbericht Gregor Aisch, Sophie Stellmach, Ulrike Zenner.
Positive Beschleunigung
 Präsentation transkript:

Seminar F Aufgabe B: Ball-Interception DRAXL Wolfgang HALLER Andreas

Aufgabenstellung zDer Roboter soll einen rollenden Ball, der sich irgendwo am Spielfeld befindet, unter Kontrolle bringen und so in Ballbesitz gelangen. (Interception) zOhne Berücksichtigung von Hindernissen und Gegner.

Realisierung zSplitten der Aufgabe in 2 Teilaufgaben: y1.) Der Roboter positioniert sich in der Bewegungsrichtung des Balles y2.) Der Roboter versucht, den nun auf sich zurollenden Ball zu stoppen zBegründung: Kleinere und besser angepaßte Lernmodelle möglich

Ball stoppen zVon uns nicht implementiert! zBegründung: yProbleme mit der Geschwindigkeitsmessung yPositionsupdate vom Supervisor dauert zu lange (Teilweise werden Zustände übersprungen) yKeksi ist für Ballsimulation ein Zylinder yVon anderer Gruppe schon gelöst (am Khepera)

Interception Realisierungsmethoden zREGLER yAusprogrammierte Lösung zLERNALGORITHMUS yReinforcement Learning

Regler zEingabegrößen : yBallposition (umgerechnet auf absolute Position) xWahlweise aus Kamerabild oder vom Supervisor yRoboterposition (vom Supervisor) zBerechnet: yBallbewegungsvektor (Geschwindigkeit und Richtung) xberechnet aus den aufeinanderfolgenden Ballpositionen yRoboter-Ball-Vektor xaus den Positionen von Roboter und Ball

Regler zBerechnet: yWinkel xWinkel zwischen Roboter-Ball- und Ball-Bewegungsvektor yZeit zum Ball xaus Roboter-Ball-Vektor und einer maximalen Robotergeschwindigkeit yBallbewegung xaus Zeit zum Ball und der Ballgeschwindigkeit xVorhaltewert wird dazuaddiert yNeue Roboterbewegung xaus Ballbewegung, Winkel und Roboter-Ball-Vektor über Cosinussatz Roboter-Ball-Vektor Ball Bewegungsvektor Vorhaltefaktor Neue Roboter- Bewegung

Regler zBerechnet: yWinkel xaus Winkel, neue Roboterbewegung und Ball-Bewegungsvektor über den Sinussatz yneue Fahrtrichtung ( ) xaus Winkel und Winkel (Winkel des Roboter- Ball-Vektors) yneue Geschwindigkeit xaus neue Roboterbewegung und der Zeit zum Ball yDrehgeschwindigkeit xüber die Position des Balles im Bild Roboter-Ball-Vektor Ball Bewegungsvektor Vorhaltefaktor Neue Roboter- Bewegung

Regler zVerhalten: yDer Roboter versucht ausgehend von der Ballbewegung und der Entfernung zum Ball, in eine Position vor dem Ball zu kommen. yDurch gleichzeitiges Drehen beim Fahren wird der Ball im Bild gehalten. yDrehung wenn kein Ball im Bild yBeim Nachfahren kann der Roboter wegen der kleinen Winkel nicht gut überholen.

Regler zGrafik: yBallpositionsermittlung mit der Kamera vom Tormannproblem übernommen. yFür die Ballgeschwindigkeit werden mehrere Positionsdifferenzen gemittelt und durch die Zeit seit der letzten Änderung dividiert. yDa nicht jeden Roboter-Step eine Positionsänderung von Ball oder Roboter vom Supervisor kommt, wird der Regler nur alle 5 Schritte aufgerufen. yWenn keine Änderung werden die alten Werte behalten. yUm die Probleme mit der Kamera zu umgehen kann alternativ die Ballposition vom Supervisor herangezogen werden.

Regler zProbleme: yUngenaue Positionsbestimmung mit der Kamera (->Roboter fährt oft in die falsche Richtung weg). yDrehgeschwindigkeit schwer dossierbar. yAbstoppen des Balles war mit diesem Ansatz auch nicht realisierbar.

Lernalgorithmus zSchlechte Lernerfolge mit der normalen Kamera-Optik xDaten von der Kamera relativ ungenau und sprunghaft xProbleme mit zusätzlichem Task Ball im Bild halten (Roboter fährt vom Ball weg, kontraproduktives Lernverhalten für Haupttask) xEnge Kurvenradien nur schwer realisierbar Richtungsgeschwindigkeit wirkt stärker als Rotationsgeschwindigkeit zu viele Geschwindigkeitsstufen blähen Modell auf

Lernalgorithmus zUmstellung auf omnidirectionale Optik: xum Probleme mit der konventionellen Optik zu umgehen xum die Aktionsanzahl für den Roboter zu reduzieren (Drehungen) xum die Aufgabe zu vereinfachen (Ball im Kamerabild halten fällt weg) xnäher am zukünftigen Verhalten des Roboters

Lernalgorithmus zErmittlung der Inputdaten: xBall-Roboter-Entfernung, Ball-Bewegungsrichtung und Roboter-Ball-Richtung werden aus der Ball- und Roboterposition vom Supervisor ermittelt xFindet keine Positionsänderung statt, werden die alten Werte weiterverwendet. xBallgeschwindigkeit: Ermittlung der Zeitdifferenz seit der letzten Positionsänderung (Ermittelte Zeit stimmt vermutlich nicht mit dem Zeitpunkt der Positionsbestimmung überein) Speed ausrechnen 7-fach Median bilden 10-fach Mittelwert (Queue)

Lernalgorithmus zRealisierung in 2 verschiedenen Modellen: yModell 1: Berücksichtigung der Ballgeschwindigkeit Weniger Entfernungsklassen Einfacheres Rewardmodell yModell 2: keine Ballgeschwindigkeit Mehr Entfernungsklassen Rewardmodell stärker auf Vermeidung des Nahbereiches ausgelegt (Kollisionsvermeidung)

Modell 1: zZustandsraum: yBallgeschwindigkeit x2 Stufen (langsam, schnell) yBall-Roboter-Entfernung x3 Diskretisierungsstufen (nah, mittel, weit) yBall-Bewegungsrichtung x8 Richtungen (45° Bereich pro Richtung) yRoboter-Ball-Richtung x8 Richtungen (45° Bereich pro Richtung)

Modell 1: zAktionsraum: y8 Bewegungsrichtungen ynur eine Fahrtgeschwindigkeit ykeine Drehung zEingeschränkte Aktionen: yIn der Entfernungsstufe weit ist die Aktionsauswahl auf die 3 Bewegungs- richtungen zum Ball hin eingeschränkt.

Modell 1: zQ-Matrix: (Speed x Entf. x Ballricht. x Robot-Ball-Richt.) x Aktionen xStates: 2*3*8*8 = 384 xActions: 8 xState-Action-Paare: 384*8 = 3072 xEingeschränkte Aktionen: (2*1*8*8)*5=640 xEndzustände: (2*1*8*1)*8=128 xRelevante State-Action-Paare: =2304

Modell 1: zRewards: yPositive: 200: Für das Erreichen des Nahbereiches 800: Für das Erreichen der Position vor dem Ball wenn bereits 200-Reward erhalten 1000: Für direktes Erreichen der Position vor dem Ball yNegative: -1: Für Verbleiben im Nahbereich -2: In mittlerer Distanz -50: In Ferndistanz

Modell 1: zRewards: Episodenabbruch bei Rewards 800 und

Modell 1: zErgebnis: xsiehe Matlab-Präsentation zSchlußfolgerung: xrecht schnell lernbar (ca.500 Episoden für Grundverhalten) xzielstrebige Bewegung zum Ball xAnstoßen des Balles schlechter beim Nachfahren Positionsupdate oft zu spät

Modell 2: zZustandsraum: yBall-Roboter-Entfernung x5 Diskretisierungsstufen yBall-Bewegungsrichtung x8 Richtungen (45° Bereich pro Richtung) yRoboter-Ball-Richtung x8 Richtungen (45° Bereich pro Richtung)

Modell 2: zAktionsraum: y8 Bewegungsrichtungen ynur eine Fahrtgeschwindigkeit ykeine Drehung zEingeschränkte Aktionen: yIn der Entfernungsstufe weit ist die Aktionsauswahl auf die 3 Bewegungs- richtungen zum Ball hin eingeschränkt.

Modell 2: zQ-Matrix: (Entf. x Ballricht. x Robot-Ball-Richt) x Aktionen xStates: 5*8*8 = 320 xActions: 8 xState-Action-Paare: 320*8 = 2560 xEingeschränkte Aktionen: (1*8*8)*5=320 xEndzustände: (1*8*1)*8=64 xRelevante State-Action-Paare: =2176

Modell 2: zRewards: yPositive: x50: Für das Erreichen der Entfernungszohne 3 x100: Für das Erreichen der Entfernungszohne 2 x150: Für das Erreichen der Position vor dem Ball in Entfernungszohne 3 aus Entfernungszohne 3 x200: Für das Erreichen der Position vor dem Ball in Entfernungszohne 3 aus Entfernungszohne 4 x700: Für das Erreichen der Position vor dem Ball in Entfernungszohne 2 aus Entfernungszohne 2 x1000: Für das Erreichen der Position vor dem Ball in Entfernungszohne 2 aus Entfernungszohne 3 yNegative: x-30: Für Verbleiben in Entfernungszohne 1 x-1: Für Verbleiben in Entfernungszohne 2 x-2: Für Verbleiben in Entfernungszohne 3 x-5: Für Verbleiben in Entfernungszohne 4 x-20: Für Verbleiben in Entfernungszohne 5

Modell 2: zRewards: Episodenabbruch bei Rewards 700 und

Modell 2: zErgebnis: xsiehe Matlab-Präsentation zSchlußfolgerung: xrecht schnell lernbar (ca.500 Episoden für Grundverhalten) xneigt oft zu Pendelbewegungen zwischen 2 Zuständen xAnstoßen des Balles tritt seltener auf

Probleme z Simulation z RL

Simulationsprobleme ySimulationsverlangsamung durch Webots braucht längere Episoden, um Erfolg zu haben yPacket Error (Keksim) dadurch ältere Supervisorversion yGeschwindigkeitsberechnung Supervisor sollte zu einer Positionsangabe auch die dazugehörige Zeit liefern yWebots Stepgeschwindigkeit Auswirkungen auf Episodenlänge

RL Probleme yModel xkann das Model überhaupt funktionieren? xGewisse Aktionen unterbinden bringt eine Verkürzung der Trainingszeit bessere Lernergebnisse xwenige und einfache Aktionen wählen xProblem in mehrere kleinere Modelle unterteilen yTrainingsprogramm xmit einfacheren Beispielen anfangen xmaßgeschneidertes Training

RL Probleme yLernalgorithmus xLernalgorithmus nur bei Zustandsänderung aufrufen xE-Traces bei einer Änderung des Beispieles abschneiden (Ball prallt von der Wand ab) xBei positiven Rewards wird in einem Zustand nur mehr eine Aktion gewählt (außer Zufall) xZufallsschritte auf Episodenlänge anpassen xAnordnung der Aktionen hat auch großen Einfluß auf das Ergebnis