Gruppe A4 – Stürmer Theoretische Informatik Seminar F Stephan Neumann Michael Groß 16.10.2002.

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

Agent Based Supply Chain Management1 ABSCM-Vorlesung im WS 2001/2002.
Anzahl der ausgefüllten und eingesandten Fragebögen: 211
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil3.
Vom graphischen Differenzieren
LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)
Telefonnummer.
CSCW-Seminar Escape the Maze C omputer S upported C ollaborative W ork Escape the Maze ist ein Lernszenario: Abstrakt Denken lernen Algorithmen entwickeln.
Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.
Zusätzliche Lehrkräfte an der Schule (Schüler in Prozent) 6
1/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Projektgruppe KIMAS Reinforcement Learning in MAS Marc Pannenberg.
1 JIM-Studie 2010 Jugend, Information, (Multi-)Media Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
= = = = 47 = 47 = 48 = =
Quantitative RT-PCR an nativen Prostatakarzinom-Biopsien: Etablierung der Technik und erste vergleichende Ergebnisse Medizinische Fakultät Universitätsklinikum.
Klicke Dich mit der linken Maustaste durch das Übungsprogramm!
Klicke Dich mit der linken Maustaste durch das Übungsprogramm! Vereinfachung von Termen Ein Übungsprogramm der IGS - Hamm/Sieg © IGS-Hamm/Sieg 2006 Dietmar.
Lernende Agenten Seminar Softwareagenten Wintersemester 2001/2002 Norman Neuhaus.
Algorithmentheorie 04 –Hashing
Rechneraufbau & Rechnerstrukturen, Folie 2.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 2.
Grundkurs Theoretische Informatik, Folie 2.1 © 2006 G. Vossen,K.-U. Witt Grundkurs Theoretische Informatik Kapitel 2 Gottfried Vossen Kurt-Ulrich Witt.
Funktionen.
Mh9S170Nr6 a. x1= –9; x2 = 1 b. x1= –4; x2 = 1 c. x1= 1; x2 = 2 d. leer e. x1= –15; x2 = 4,2 f. x1= –3,53; x2 = 1,28 g. leer h. x1= 0,2; x2 = 2 i. x1=
Vorlesung: 1 Betriebliche Informationssysteme 2003 Prof. Dr. G. Hellberg Studiengang Informatik FHDW Vorlesung: Betriebliche Informationssysteme Teil2.
Prof. Dr. Bernhard Wasmayr
Studienverlauf im Ausländerstudium
Dieter Bergmann, Lichtenfels
Classification of Credit Applicants Using Data Mining. Thema.
Prof. Dr. Bernhard Wasmayr VWL 2. Semester
AWA 2007 Natur und Umwelt Natürlich Leben
Rechneraufbau & Rechnerstrukturen, Folie 12.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 12.
Herzlich Willkommen zur Pressekonferenz anlässlich der
20:00.
Objekt- und Selbstlokalisation in der Robotik
So kannst du beide schnell berechnen.
„Küsse deine Freunde“ – FlexKom-App teilen
Zusatzfolien zu B-Bäumen
Geschlecht der Befragten Alter der Befragten Warum gehst du in ein Einkaufszentrum ?
Eine Einführung in die CD-ROM
Tormann Lorenz Maierhofer Die Test-Umgebung Tor: 5x Roboter-Durchmesser Ball: Wird jeweils in Richtung einer zufälligen Position im Tor geschossen.
Wir üben die Malsätzchen
Syntaxanalyse Bottom-Up und LR(0)
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
Hartmut Klauck Universität Frankfurt SS
Konfidenzintervall und Testen für den Mittelwert und Anteile
Mehr zum Testen von Hypothesen
Analyse von Ablaufdiagrammen
Test Gradnetz 1 . Verständnisfragen Orte suchen Koordinaten ablesen
Der Ablauf eines Clear Rex Klärzyklus
PROCAM Score Alter (Jahre)
Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.
Geometrische Aufgaben
Symmetrische Blockchiffren DES – der Data Encryption Standard
Retuschen.ppt Die folgende Schau zeigt die Möglichkeiten, mit PhotoDraw Digitalbilder zu retuschieren. Vergleichen Sie jeweils zwei Bildpaare durch fleissiges.
Kopfrechnen Geometrie Gleichungen Prozente Vermischtes
Internet-User 1999 in der Schweiz "Haben Sie schon einmal das Internet benutzt ?" - nach sozio-demografischen Merkmalen WISO Telefonumfrage ECATT99.
Großer Altersunterschied bei Paaren fällt nicht auf!
Zahlentheorie und Zahlenspiele Hartmut Menzer, Ingo Althöfer ISBN: © 2014 Oldenbourg Wissenschaftsverlag GmbH Abbildungsübersicht / List.
MINDREADER Ein magisch - interaktives Erlebnis mit ENZO PAOLO
1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.
Parkplatz-Orga Diese Version ist vom finale Version!
Sachbezugswerte 2007 (SV-Entgeltverordnung) Sachbezugswerte für freie Verpflegung FrühstückMittagessenAbendessen 1,50 2,67 Monatlicher Wert Verpflegung.
Schlechte Verbindung? was tun? P ke ve lus e au er St ecke a t r t f d r.
Folie Beispiel für eine Einzelauswertung der Gemeindedaten (fiktive Daten)
1 Mathematical Programming Nichtlineare Programmierung.
Dokumentation der Umfrage BR P2.t Ergebnisse in Prozent n= 502 telefonische CATI-Interviews, repräsentativ für die Linzer Bevölkerung ab 18 Jahre;
Technische Frage Technische Frage Bitte löse die folgende Gleichung:
Folie Einzelauswertung der Gemeindedaten
Vom graphischen Differenzieren
Datum:17. Dezember 2014 Thema:IFRS Update zum Jahresende – die Neuerungen im Überblick Referent:Eberhard Grötzner, EMA ® Anlass:12. Arbeitskreis Internationale.
1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.
 Präsentation transkript:

Gruppe A4 – Stürmer Theoretische Informatik Seminar F Stephan Neumann Michael Groß

0,8 0,2 Der Playground 0,17 0,060,108 0,04

Automatisches Testen – die Testsuite

Aufbau einer Testsuite 6 Teilbereiche, Startpositionen: Roboter in Blickrichtung Tor, Ball direkt vor Roboter Roboter in Blickrichtung Tor, Ball vor Roboter, etwas entfernt Roboter in Blickrichtung Tor, Ball direkt hinter Roboter Roboter in Blickrichtung Tor, Ball hinter Roboter, etwas entfernt Roboter in Blickrichtung Tor, Ball auf Roboterposition gespiegelt um die y-Achse Zufällige Roboter & Ball Startposition

Der Regler 1: Gehe zum Ball 2: Weiche Hindernis aus (Kollisionsgefahr!) 3: Drehe Dich parallel zum Hindernis und fahre vorwärts(mit Ball) 4: Fahre vorwärts (mit Ball) 5: Schieße (mit Ball) 6: Fahre eine Kurve (mit Ball, Hindernis im Weg) 7: Fahre eine Kurve (mit Ball, freie Bahn) 0: Schieße (Selbstmord, mit Ball) zustandsbasiert 8 Aktionen (Behaviors):

Regler – verwendete Features Abstand zum Ball (direkt davor, sonst) Abstand zum Hindernis Winkel zum Hindernis Winkel zum Tor

Regler - Entscheidungsbaum Ball genau vor Roboter? Gehe zu Ball Hindernis SEHR nahe? JANEIN Hindernis Ausweichen Tor gerade voraus & Hindernis nicht im Weg? |Hindernis Winkel| < 60°? Hindernis nahe? Hindernis sehr nahe? |Hindernis Winkel| < 30°? vorwärts Parallel zu Hindernis drehen & vorwärts vorwärtsSchießen!Selbstmord Roboter parallel zu Hindernis & Tor voraus ? vorwärts Hindernis zu nahe für Kurve?Kurve Hindernis steht Kurve im Weg?KurveKurve (blockiert)

Regler – Ergebnisse: 65,7%

Bewertung einer Q-Table – Difference und Total Difference

Lernen - Actions 1: Gehe zum Ball 2: Weiche Hindernis aus (Kollisionsgefahr!) 3: Drehe Dich parallel zum Hindernis und fahre vorwärts(mit Ball) 4: Fahre vorwärts (mit Ball) 5: Schieße (mit Ball) 6: Fahre eine Kurve (mit Ball, Hindernis im Weg) 7: Fahre eine Kurve (mit Ball, freie Bahn) 0: Schieße (Selbstmord, mit Ball)

Lernen - Statediskretisierungen Abstand zum Ball: = 0.03: 2 Abstand zum Hindernis: = 0.18: 5 |Winkel Hindernis| : = 7 Pi / 6: 6 |Winkel Tor| : = 0.05 : 2 States = 2 * 5 * 6 * 2 = 120; |QTable| = States * Actions = 960

Statediskretisierungen graphisch

Lernreihe 1: Rewardmodell Erfolg: 100 Fehlschlag: -100 Behavior beendet sich sofort: -10

Lernreihe 1 - Ergebnisse EpisodenErfolgFehlschlagProzent Geänderte ActionsT-Diff ,27% ,29% ,01% ,96% ,93% ,99% ,10% ,10% ,54% ,99% ,46%85696

Lernreihe 1 - Ergebnisse

Lernreihe 1, 1524 Episoden, 25,3%

Lernreihe 1, 2910 Episoden, 47,3%

Lernreihe 1, 3557 Episoden, 48,0%

Lernreihe 1, 5000 Episoden, 43,0%

Lernreihe 1, 6459 Episoden, 46,9%

Lernreihe 1, 6805 Episoden, 52,0%

Lernreihe 1, 7309 Episoden, 49,1%

Lernreihe 1, 7797 Episoden, 49,1%

Lernreihe 1, 8332 Episoden, 50,5%

Lernreihe 1, Episoden, 52,0%

Lernreihe 1, Episoden, 49,5%

Regler 65,7% (zum Vergleich)

Lernreihe 2 - Rewardmodell Erfolg: 100 Timeout: -0,5 Sonstiger Fehlschlag: -100 Behavior beendet sich sofort: -10 Bahavior Selbstmord: -50 Abbruch nach 40x selber Action im selben State (-100)

Lernreihe 2 - Ergebnisse EpisodenErfolgFehlerProzent Geänderte ActionsT-Diff ,74% ,29% ,90% ,60% ,32%182850

Lernreihe 2 - Ergebnisse

Lernreihe 2, 1966 Episoden, 48,7%

Lernreihe 2, 2910 Episoden, 47,3%

Lernreihe 2, 3222 Episoden, 50,9%

Lernreihe 2, 4142 Episoden, 42,6%

Lernreihe 2, 6652 Episoden, 30,3%

Regler 65,7% (zum Vergleich)

Lernreihe 3 - Ergebnisse EpisodenErfolgFehlerProzent Geänderte ActionsT-Diff ,74% ,10% ,82%66769

Lernreihe 3 - Ergebnisse

Lernreihe 3, 1966 Episoden, 48,7%

Lernreihe 3, 6524 Episoden, 49,1%

Lernreihe 3, 9532 Episoden, 49,8%

Regler 65,7% (zum Vergleich)

Alle Tests zusammen: Lernreihe 1Lernreihe 2Lernreihe 3

Behavior RL Problem Stetiger Zustandsraum. Stetige Aktionen.

Lösung 1: Diskretisierung Zu grobe Einteilung – Wichtige Unterschiede im Zustandsraum können nicht erkannt werden. Zu feine Einteilung – Riesiger Zustandsraum, lange Zeit, bis auch nur alle wesentlichen Zustände einmal auftreten. Der Agent kann nicht von bereits bekannten Zuständen auf neu auftretende, aber ähnliche Zustände schließen. Es ist schwer, bekanntes Wissen einzubringen.

Erwünschte Eigenschaften des RL Direktes Verarbeiten des stetigen Zustandsraum. Direkte Ausgabe der stetigen Aktionen. Keine versteckte Diskretisierung. Agent soll beim Auftreten eines unbekannten Zustands eine möglichst gute Aktion wählen. Möglichkeit, das vom Regler bekannte Wissen einzubringen.

Aktion/Reward Funktion Funktion durch n Kontrollpunkte (2 mal n Parameter) definiert. Funktion geht garantiert durch höchsten Kontrollpunkt – leichtes ermitteln des Maximums.

Wire Fitting Position der Kontrollpunkte soll vom Zustandsvektor x abhängen, y=f(u) ist dabei der zu erwartende reward. xZustandsvektor uAktion(svektor) Q(x,u)erwarteter Reward cSmoothing Faktor

Kontrollpunkte mit ANN bestimmen

Einbringen von Vorwissen

Lernen mit Wire RL Ermittle die beste Aktion u und dazugehörendes Q(x t, u) für Statevektor x t. Führe Aktion aus, ermittle Reward r t+1 und neuen State x t+1 (beachte ||x t+1 - x t ||). Q-Learning Verwende Gradient Descent, um die Kontrollpunkte zu verändern. Verwende Gradient Descent, um das ANN an die neuen Kontrollpunkte anzupassen.

Beispiel

Probleme Verlernen. Unstetige Werte. Nicht skalierte Werte.