Entscheidungsunterstützungssysteme IWI Frankfurt 2004

Slides:

Advertisements

Ähnliche Präsentationen

Vortrag von Stephanie Weirauch Jens Pleger Peter Jancke Frank Wejmelka

Advertisements

Algorithmentheorie 08 – Dynamische Programmierung (1)

DFG-Forschungsprojekt

Seminarankündigung für das SS04

Entscheidungsunterstützungssysteme IWI Frankfurt 2004 Michael Schwind EUS-Übung Kombinatorische Auktionen.

Agent Based Supply Chain Management1 ABSCM-Vorlesung im WS 2001/2002.

Entscheidungsunterstützungssysteme -

Agent based computational economics Das Konzept rationalen Verhaltens im Umfeld maschineller Akteure Spezielles Seminar Wirtschaftsinformatik SS2001 Frankfurt.

Algorithmentheorie 08 – Dynamische Programmierung (4) Editierdistanz Approximative Zeichenkettensuche Sequence Alignment Prof. Dr. Th. Ottmann WS

Routing – Routing Protokolle

Mathematik 9. Jahrgang: Zentrische Streckung

LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)

LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)

Das LCA – Problem in Suffixbäumen

Suche in Texten (Stringsuche )

Einführung Künstliche Intelligenz Steuerungs- und Regelungstechnik

Wie lernt FUSC# mit TD( )? Marco Block... X1X1 X2X2 XNXN x1x1 x2x2 pd[i] =w1f1(x) + w2f2(x) + w3f3(x) wnfn(x)... w1f1(x) + w2f2(x) + w3f3(x) +...

Algorithmen und Komplexität

1/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Projektgruppe KIMAS Reinforcement Learning in MAS Marc Pannenberg.

Klaus Volbert 1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität Sommersemester 2004.

Anwendung und Visual Basic

Entscheidungstheorie für Unentschlossene Indecision Theory.

Informierte Suche.

Spielbäume Richard Göbel.

Suchbäume Richard Göbel.

IIW Erläuterungen zum Masterprogramm. IIW-MS Allgemeine Fachmodule (60) – Studienarbeit + Seminar (18) – Betrieb und Management (6) Nichttechnische Ergänzungsfächer.

Heuristiken Automatic Problem Solving Institut für Informatik

Lernende Agenten Seminar Softwareagenten Wintersemester 2001/2002 Norman Neuhaus.

Algorithmentheorie 6 – Greedy-Verfahren

Prof.Dr.S. Albers Prof. Dr. Th. Ottmann

Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.

Genetische Algorithmen

Reinforcement Learning

Algorithmen und Komplexität

Stand: Mai 2004 Überschriften 0. Dachzeilen 1. Allgemeines 2. Aufbau des Institutes 3. Forschung Fliesstext Arial Fett 25pt Rot 0 Grün 51 Blau 102 Arial.

Was sind Histogramme? (1)

Minimum Spanning Tree: MST

Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)

Teil 5: Kollisionsvermeidung & Wegplanung

Brückenschaltung 1.

Huffman Entropie-Codierung Codierung mit variabler Länge

Konzeption und Realisierung von DSS

Machine Learning Was wir alles nicht behandelt haben.

Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/

Muster zum Erstellen einer Abfrage mit der interaktiven Datenbank

Effiziente Algorithmen

Moin. Ich benutze PPT 2002 und möchte drei Bilder nacheinander 1

Verwendung von Maschinellem Lernen in einer einfachen Computerspielumgebung Anglberger Harald Brandl Stephan Mai 2003.

Operations Research Rundreiseaufgaben Marc Schwärzli SS 2011.

Sortieralgorithmen Sortieren von Arrays.

Effiziente Algorithmen

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Einführung in die Programmiersprache C 4

… oder wie finde ich den Weg

Einführung ins Lösen von Textaufgaben (Textgleichungen)

Advanced Digital Design Übung 3. Aufgabe 1: Algorithmus für Phasen Inverter Plazierung Systematic approach: 1. Identify combinational logic and registers/memories.

Informatik Datenstruktur Graph 3.3 Durchlaufen von Graphen

Das Traveling Salesman Problem (TSP)

Lernmodelle und Experimentelle Untersuchungen

6. Übung Informatik 1 Inhalte: Der DLX-Prozessor

Tabelle 4-1: Umweltzustände für die Einführung einer neuen Biersorte

Routenplanung querfeldein - Geometric Route Planning

Der A*-Algorithmus.

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler Universität Hamburg Fachbereich Informatik.

Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.

Univ.-Prof. Dr. L. Müller-HagedornSofia 2007 Marketing 1 Kapitel 4 Nach der Bearbeitung des 4. Kapitels sollten Sie in der Lage sein, q Kennzahlen aufzuzeigen,

Rechen- und Kommunikationszentrum (RZ) Selektionsstrategien auf Graphstrukturen Sven Porsche Seminarvorträge Aachen.

Wiederholung TexPoint fonts used in EMF.

Präsentation transkript:

Entscheidungsunterstützungssysteme IWI Frankfurt 2004 EUS-Übung Yield Management und Reinforcement- Learning Michael Schwind Entscheidungsunterstützungssysteme IWI Frankfurt 2004

Klausurrelevanter Stoff Lokale Optimierung, Heuristiken: A*… Agenten: Reputationsmodell entfällt Genetische Algorithmen, Simulated Annealing COSA: entfällt ANT-Optimierung SWARM: entfällt Yield Management, Reinforcement Learning Kombinatorische Auktionen Literatur: Reinforcement Learning zur Lösung multidimensionaler Yield-Management Probleme, (Wendt, Schwind 2002) Entscheidungsunterstützungssysteme IWI Frankfurt 2004

Entscheidungsunterstützungssysteme IWI Frankfurt 2004 SDP Aufgabe Berechnen Sie für die in folgender Tabelle angegebene Nachfragewahr- scheinlichkeiten für Ihr Privatflugzeug mit 4 Sitzen die Restwertfunktion (mittels stochastischer dynamischer Programmierung) für die letzten drei Anfragen vor Abflug (stage 1, stage 2 und stage 3). Typ Wahrscheinlichkeit Angefragte Sitzplätze Erlös F1 0.2 1 Sitz 2 Geldeinheiten F2 0.8 2 Sitze 3 Geldeinheiten Entscheidungsunterstützungssysteme IWI Frankfurt 2004

Entscheidungsunterstützungssysteme IWI Frankfurt 2004 SDP Stage 1 i a*(i) V1*(i) Berechnung 00 0.00 0.8*0+0.2*0 1 01 0.40 0.8*0+0.2*2 2 11 2.8 0.8*3+0.2*2 3 4 Entscheidungsunterstützungssysteme IWI Frankfurt 2004

Entscheidungsunterstützungssysteme IWI Frankfurt 2004 Stage 2 (z.B. i=2) a*(i) V1*(i) Berechnung 00 2.8 0.8*0+0.2*0 + 0.8*V1(2)+0.2 V1(2) 01 1.4 0.8*0+0.2*2 + 0.8*V1(2)+0.2 V1(1) 10 2.96 0.8*3+0.2*0 + 0.8*V1(0)+0.2 V1(2) 11 2.88 0.8*3+0.2*2 + 0.8*V1(0)+0.2 V1(1) Entscheidungsunterstützungssysteme IWI Frankfurt 2004

Reinforcement-Learning Agent ist mit der Umwelt durch eine Sensorik verbunden In jedem Interaktionsschritt erhält der Agent einen Input i und Rückmeldung über Umweltzustand s Agent wählt eine Aktion a als Output, die den Umweltzustand ändert Agent bekommt den Wert der Aktion durch Reinforcement Signal mitgeteilt Ziel des Agenten ist es längerfristig die Summe der erhaltenen Reinforcement-Signale zu optimieren Entscheidungsunterstützungssysteme IWI Frankfurt 2004

Reinforcement-Learning Agent Umgebung Action ar Reward r Zu-stand s rt+1 st+1 Entscheidungsunterstützungssysteme IWI Frankfurt 2004

Demo Reinforcement Learning Entscheidungsunterstützungssysteme IWI Frankfurt 2004

Temporal-Difference-Learning kombiniert Dynamische Programmierung mit Monte-Carlo-Methode Einteilung in Episoden setzt am Anfang der Durchläufe für jedes V(s) Schätzwerte korrigiert Schätzwert für V(s,t) über Summe aus folgendem Return und folgender Zustandswertfunktion Episode muss zur Bildung von Schätzwerten nicht komplett durchlaufen werden! Entscheidungsunterstützungssysteme IWI Frankfurt 2004

Entscheidungsunterstützungssysteme IWI Frankfurt 2004 Beispiel r1 r3 r4 r7 r8 Update-Regel: Entscheidungsunterstützungssysteme IWI Frankfurt 2004

on- vs. off-policy learning On-policy-Methode: Politik, mit der das Verhalten im Entscheidungsbaum generiert wird ist mit der, mit der V(s) geschätzt wird, identisch Off-policy-Methode: Verhaltenspolitik und Politik, mit der V(s) geschätzt wird, sind nicht identisch: Durchlauf des Entscheidungsbaumes wird bestimmt mit Verhaltenspolitik, V(s) wird geschätzt über Schätzpolitik Entscheidungsunterstützungssysteme IWI Frankfurt 2004

Q-Learning: Off-Policy TD-Learning Optimaler Weg wird nicht über Update von V(s), sondern über Update von Q(s,a) bestimmt Verhaltenspolitik bestimmt Durchlauf des Entscheidungsbaumes Schätzpolitik wird zum Update von Q(s,a) verwendet Verhaltenspolitik ist -greedy; Schätzpolitik ist greedy Vorteil: globales Optimum wird mit größerer Wahrscheinlichkeit gefunden Entscheidungsunterstützungssysteme IWI Frankfurt 2004

Vorgehensweise Q-Learning Wiederhole für jede Episode: 1. Gehe von einem bestimmten s aus 2. Wähle eine Aktion a, ausgehend von s und unter Zuhilfenahme der gewählten Verhaltenspolitik z.B. -greedy 3. Beobachte Return r und Zustand s‘ 4. Erstelle ein Update von Q folgendermaßen: 5. Gehe von s zu s‘ Entscheidungsunterstützungssysteme IWI Frankfurt 2004

RL-Entscheidungsbaum Aufgabe Zeichen Sie einen reinforcement-lernenden Agenten in seiner Umgebung und erklären Sie die wesentlichen Merkmale des Reinforcement-Lernens Welchen Pfad würde ein RL-Agent durch den unten gezeigten Entscheidungsbaum wählen (nur die mit r gekennzeichneten Kanten stehen zur Auswahl), wenn er die greedy-Strategie wählt. Zeigen Sie, dass nach dem Durchschnittskriterium des Reinforcement-Lernens der gewählte Weg suboptimal ist? Welche Auswahlstrategie verhindert das beschriebene Verhalten (kurze Erklärung der Strategie)? Berechnen Sie den Zustandswert für den mit einem Pfeil markierten Knoten nach dem Durchlauf der Episoden (r1, r3, r7) und (r1, r4, r8), sowohl nach der First-Visit Methode als auch nach der Every-Visit Methode mit Update-Faktor a = 0,2 Entscheidungsunterstützungssysteme IWI Frankfurt 2004

RL-Entscheidungsbaum Aufgabe Entscheidungsunterstützungssysteme IWI Frankfurt 2004

RL-Entscheidungsbaum Lösung Greedy Pfad: r1, r4, r8 mit S/3 = 15/3 Alternativer Pfad: r1, r3, r6 mit S/3 = 16/3 e-greedy Strategie: Die e-greedy Strategie ist eine Variante der MC-Methode. In Zustand s wird mit einer geringen Wahrscheinlichkeit nicht die Entscheidungsvariante mit dem größten Aktionswert Q(s, a) ausgewählt, sondern eine der verbleibenden suboptimalen Entscheidungen (e-greedy). Auch Pfade mit zunächst schlechter geschätztem Aktionswert können gewählt werden. Die Tatsache, dass bei dieser Auswahlpolitik keine Episode gänzlich ausgeschlossen ist, garantiert das Durchlaufen aller Pfade im Grenzfall. Entscheidungsunterstützungssysteme IWI Frankfurt 2004

RL-Entscheidungsbaum Lösung Update Regel für das every-visit MC-Verfahren V(st)  V(st) + [R t - V(st)] First-Visit Verfahren: 6,5 Every-Visit Verfahren: 0,8*6,5 + 0,2*6 = 6,4 Entscheidungsunterstützungssysteme IWI Frankfurt 2004

Entscheidungsunterstützungssysteme IWI Frankfurt 2004 RL-Grid-Aufgabe In Abbildung 1 sehen Sie eine 4 x 4 Grid-World für einen reinforcement-lernenden Roboter Zudem befindet sich auf dem Beiblatt das Ergebnis von einem Simulationslauf des RL-Simulators Path-Learner. Stellen sie anhand der im Simulationsbeispiel aufgezeichneten Q-Werte die gelernte Politik in Abbildung 2 dar. Benutzen Sie dazu die in Abbildung 1 verdeutlichte Pfeildarstellung. Markieren Sie die Lage eines Hindernisses mit einem X. Die Nomenklatur der Felder ist dabei wie folgt: Q[1][2] bedeutet Position 1 horizontal und Position 2 vertikal. Entscheidungsunterstützungssysteme IWI Frankfurt 2004

Entscheidungsunterstützungssysteme IWI Frankfurt 2004 RL-Grid-Aufgabe Abbildung 1: Abbildung 2: Entscheidungsunterstützungssysteme IWI Frankfurt 2004

Entscheidungsunterstützungssysteme IWI Frankfurt 2004 RL-Grid Aufgabe Q Matrix: ( UP DOWN LEFT RIGHT ) Q[0][0] = { 0 20.9715 0 20.9715 } Q[0][1] = { 0 16.7772 16.7772 26.2144 } Q[0][2] = { 0 0 20.9715 32.768 } Q[0][3] = { 0 40.96 26.2144 40.9463 } Q[0][4] = { 0 51.1943 32.7679 0 } Q[1][0] = {16.7772 26.2144 0 16.7772 } Q[1][1] = {20.9715 20.9715 20.9715 0 } Q[1][2] = { 0 0 0 0 } Q[1][3] = { 32.7679 51.2 0 51.1972 } Q[1][4] = { 40.9419 63.9988 40.9599 0 } Q[2][0] = { 20.9715 32.768 0 20.9715 } Q[2][1] = { 16.7772 0 26.2144 0 } Q[2][2] = { 0 0 0 0 } Q[2][3] = { 40.9598 64 0 63.989 } Q[2][4] = { 51.1958 79.9998 51.1985 0 } Q[3][0] = { 26.2144 40.96 0 0 } Q[3][1] = { 0 0 0 0 } Q[3][2] = { 0 0 0 0 } Q[3][3] = { 51.1977 80 0 79.9987 } Q[3][4] = { 51.6753 100 63.9977 0 } Q[4][0] = { 32.768 0 0 51.2 } Q[4][1] = { 0 0 40.96 64 } Q[4][2] = { 0 0 51.2 80 } Q[4][3] = { 64 0 64 100 } Q[4][4] = { 0 0 0 0 } Simulationsbeispiel Max number of trials: 125 Max number of moves per trial: 50 Actual number of trials: 125 Learning Data: Learner Type: Q Gamma = 0.8 Alpha = 0.5 Current Action Strategy: Epsilon (epsilon = 0.75) Reward = 100 Penalty = 0 Entscheidungsunterstützungssysteme IWI Frankfurt 2004