DFG-Forschungsprojekt

Slides:

Advertisements

Ähnliche Präsentationen

Entscheidungsunterstützungssysteme IWI Frankfurt 2004

Advertisements

Agent Based Supply Chain Management1 ABSCM-Vorlesung im WS 2001/2002.

Rekursion: Rekurrenz: Algorithmen rufen sich selbst (rekursiv) auf.

Falls Algorithmen sich selbst rekursiv aufrufen, so kann ihr Laufzeitverhalten bzw. ihr Speicherplatzbedarf in der Regel durch eine Rekursionsformel (recurrence,

Eine dynamische Menge, die diese Operationen unterstützt,

Vorlesung Programmieren II

Statistische Aspekte der PSG

LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)

LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)

Genetische Algorithmen für die Variogrammanpassung

Modelle und Methoden der Linearen und Nichtlinearen Optimierung (Ausgewählte Methoden und Fallstudien) U N I V E R S I T Ä T H A M B U R G November 2011.

Einführung Künstliche Intelligenz Steuerungs- und Regelungstechnik

1/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Projektgruppe KIMAS Reinforcement Learning in MAS Marc Pannenberg.

Zeitliches probabilistisches Schließen

Informierte Suche.

Sortierverfahren Richard Göbel.

SciAgents - Eine agentenbasierte Umgebung für verteilte wissenschaftliche Berechnungen Alexander StarkeSeminar Software Agenten

Lernende Agenten Seminar Softwareagenten Wintersemester 2001/2002 Norman Neuhaus.

Algorithmentheorie 04 –Hashing

Algorithmentheorie 6 – Greedy-Verfahren

Prof.Dr.S. Albers Prof. Dr. Th. Ottmann

WS Algorithmentheorie 02 - Polynomprodukt und Fast Fourier Transformation Prof. Dr. Th. Ottmann.

Dynamische Programmierung (2) Matrixkettenprodukt

Prof. Dr. S. Albers Prof. Dr. Th. Ottmann

WS Algorithmentheorie 08 – Dynamische Programmierung (2) Matrixkettenprodukt Prof. Dr. Th. Ottmann.

Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27 – Kürzeste Wege) Prof. Th. Ottmann.

Genetische Algorithmen

Grundkurs Theoretische Informatik, Folie 2.1 © 2006 G. Vossen,K.-U. Witt Grundkurs Theoretische Informatik Kapitel 2 Gottfried Vossen Kurt-Ulrich Witt.

Reinforcement Learning

Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Diskrete Mathematik I Vorlesung Listen-

PG 520 Intelligence Service – gezielte Informationen aus dem Internet

Zeitreihenanalyse WS 2004/2005 Michael Hauhs / Gunnar Lischeid

AC Analyse. 2Ausgewählte Themen des analogen Schaltungsentwurfs Sprungantwort.

Differentieller Stromverstärker

Kennlinie Lichtregelung in JavaNNS Version 1.1

Rechneraufbau & Rechnerstrukturen, Folie 12.1 © W. Oberschelp, G. Vossen W. Oberschelp G. Vossen Kapitel 12.

Konzeption und Realisierung von DSS

Machine Learning Was wir alles nicht behandelt haben.

Maschinelles Lernen und automatische Textklassifikation

Reinforcement Learning 2

Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/

1 Fachtagung am Seniorenorientiertes Design und Marketing ThyssenKrupp Immobilien Design for all - Anpassungen im Wohnungsbestand 1.Demographie.

LS 2 / Informatik Datenstrukturen, Algorithmen und Programmierung 2 (DAP2)

Effiziente Algorithmen

Computational Thinking Online Algorithmen [Was ist es wert, die Zukunft zu kennen?] Kurt Mehlhorn Konstantinos Panagiotou.

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen

Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS

Hartmut Klauck Universität Frankfurt SS

Analyse von Ablaufdiagrammen

HORIZONT 1 XINFO ® Das IT - Informationssystem PL/1 Scanner HORIZONT Software für Rechenzentren Garmischer Str. 8 D München Tel ++49(0)89 / 540.

Vorlesung Mai 2000 Konstruktion des Voronoi-Diagramms II

Strategie der Modellbildung

Das IT - Informationssystem

LOD Levels of Detail Oliver Gassner Christian Troger.

1 (C)2006, Hermann Knoll, HTW Chur, FHO Quadratische Reste Definitionen: Quadratischer Rest Quadratwurzel Anwendungen.

Schutzvermerk nach DIN 34 beachten 20/05/14 Seite 1 Grundlagen XSoft Lösung :Logische Grundschaltung IEC-Grundlagen und logische Verknüpfungen.

1 Mathematical Programming Nichtlineare Programmierung.

1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.

Das Traveling Salesman Problem (TSP)

Ertragsteuern, 5. Auflage Christiana Djanani, Gernot Brähler, Christian Lösel, Andreas Krenzin © UVK Verlagsgesellschaft mbH, Konstanz und München 2012.

Das IT - Informationssystem

1 Medienpädagogischer Forschungsverbund Südwest KIM-Studie 2014 Landesanstalt für Kommunikation Baden-Württemberg (LFK) Landeszentrale für Medien und Kommunikation.

Monatsbericht Ausgleichsenergiemarkt Gas – Oktober

Monatsbericht Ausgleichsenergiemarkt Gas – November

Lernen 1. Vorlesung Ralf Der Universität Leipzig Institut für Informatik

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler Universität Hamburg Fachbereich Informatik.

Präsentation transkript:

DFG-Forschungsprojekt Einführung in das Reinforcement-Learning DFG-Forschungsprojekt Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning Definition Allgemein: Automatisierung der Bepreisung von Internetdienstleistungen im Sinne eines optimalen Ertrags-Managements Ziel: Kopplung der Bepreisung von Arbeitsaufträgen an Rechnersysteme mit der Auslastungsoptimierung der Ressourcen Instrumentarium: Stochastische Dynamische Programmierung, Reinforcement Learning, Neuronale Netze, Genetische Algorithmen Einführung in das Reinforcement Learning

Beispiel für Auslastungsverteilung Lastverteilung des Rechenzentrums des Landes Niedersachsen über eine Woche Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning Praxisbezug Grundproblem: Last auf Rechnersystemen ist einerseits nichtdeterministisch, (stochastisch verteilt) andererseits folgt sie gewissen Gesetzmäßigkeiten bedingt durch die Verhaltensweisen der Nutzer z.B. Abruf von Börsenkursen ab 9 Uhr, oder Video on Demand in den Abendstunden, usw. Idee: Einführung einer Preisstaffel nach Angebot und Nachfrage Einführung in das Reinforcement Learning

Resultierende Problemstellungen Bekannte Problemtypen: Queueing–Probleme (zeitlich und örtlich) Scheduling–Probleme (zeitlich und örtlich) Routing–Probleme (örtlich) File–Allocation–Probleme (örtlich) Load–Balancing–Probleme (örtlich und zeitlich) Einwand: Diese Anwendungsbereiche sind klassische Forschungsgebiete der Informatik Ökonomische Sicht: Für anzufordernde Arbeitspakete werden Preise ausgehandelt Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning Aufgabenumfeld Aufträge treffen stochastisch auf ein Netz von Rechnern und sollen dort möglichst zeitnah verarbeitet werden Aufträge tragen Preise (zugewiesen oder ermittelt) und haben bestimmte Ablaufdauer Bearbeitung der Aufträge ist in Grenzen zeitlich variabel Ziel: Auslastung der Rechnerkapazitäten so, dass der Ertrag maximiert wird Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning Zuweisungsproblem Zeitpunkt des Eintreffens und Größe neuer Aufträge ist nicht bekannt Kleine Aufträge können größere Aufträge blockieren, falls sie zu früh angenommen werden und schmälern somit den Ertrag, wenn kein neuer Auftrag eintrifft Werden kleinere Aufträge nicht angenommen und kommt kein größerer Auftrag, so entgeht ebenfalls Gewinn Assoziiert: Verteilung der Aufträge unter den Rechnersystemen Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning Lösungsansätze Yield-Management (YM) mit dynamischer Programmierung (DP) Voraussetzung: Teil der zu bearbeiteten Aufträge steht in einer Warteschleife vor dem Rechnernetz Vorteil: Problem ist analytisch lösbar durch das Ermitteln von Restwertfunktionen im Zusammen-hang mit dynamischer Programmierung Nachteil: Für größere Probleme nicht mehr in vertretbarer Zeit lösbar (evtl. nicht real-time-fähig) Lösung: Formulieren der analytischen Lösung durch Näherungsverfahren (NN, GA) als look-up-Tabelle Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning Lösungsansätze Reinforcement-Learning (RL) mit DP Voraussetzung: Eingang der Aufträge folgt, neben der Markov-Eigenschaft auch bestimmten Mustern die sich wiederholen (Bayes-Anteil wird erwartet) Vorteil: Bepreisung ist in die Reinforcement-Funktion integrierbar, Problem ist in Echtzeit zu lösen, Zeithorizont der Vorlaufphase ist stufenlos verstellbar, mit steigender Einsatzzeit wächst die Performance des Systems Nachteil: Online-Training erforderlich, zuerst schlechtere Performance Lösung: Vorbereiten des Systems mit Offline-Daten Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning Markov-Eigenschaft Markov–Eigenschaft Zustandsübergänge sind unabhängig von den vor-hergehenden Umweltzuständen und Entscheidungen Markov–Kette Kette von stochastischen Ereignissen, die ihre Vergangenheit vergisst, d.h. die Auftrittswahrschein-lichkeit eines neuen Ereignisses einer Markov–Kette (0-ter Ordnung) ist unabhängig von der Auftritts-wahrscheinlichkeit der vorhergehenden Ereignisse Einführung in das Reinforcement Learning

Markovsche Entscheidungsprozesse Markovscher Entscheidungsprozess (MDP) besteht aus: Menge von Zuständen S Menge von Aktionen A Ertragsfunktion R Zustandsübergangsfunktion T Zustandsübergangsfunktion: Zustände werden auf Wahrscheinlichkeiten abbildet, wobei (s) die Entscheidungspolitik in Zustand s ist. T(s, a, s’) ist die Wahrscheinlichkeit eines Zustandsübergangs von Zustand s zu Zustand s’ unter Berücksichtigung von Aktion a Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning Lernen in der KI Lernmethoden: Routinelernen Lernen durch Anleitung Lernen am Beispiel und aus Erfahrung Analogielernen Lernen durch Entdecken Lernkontrolle: Überwachtes Lernen: Lehrer z.B.: KNN Bestätigungslernen: Kritiker z.B.: RL Nicht überwachtes Lernen: Beobachter z.B.: LSE Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning Formalisierung der Ausgangssituation Entscheidungsbaum s s‘ s‘‘ a4, r4 a2, r2 a3, r3 a5, r5 a1, r1 a6, r6 Politik gibt Wahrscheinlichkeiten für Wege an, den Entscheidungsbaum zu durchlaufen Einführung in das Reinforcement Learning

Reinforcement-Lernen Bestätigungs-Lernen: als Wissenschaft in den letzten 10 Jahren etabliert Ursprünge: Kybernetik, Psychologie, Statistik, Neurowissenschaften, KI, Robotik Ziel: Programmieren von Agenten durch Belohnung und Bestrafung ohne die Notwendigkeit der expliziten Festlegung der Aufgabendurchführung Methode: Agent handelt in einem dynamischen Umfeld und lernt durch trail-and-error Einführung in das Reinforcement Learning

Reinforcement-Lernen Reinforcement-Learning (RL) Agent ist mit der Umwelt durch eine Sensorik verbunden In jedem Interaktionsschritt erhält der Agent einen Input i und Rückmeldung über Umweltzustand s Agent wählt eine Aktion a als Output, die den Umweltzustand ändert Agent bekommt den Wert der Aktion durch Reinforcement Signal mitgeteilt Ziel des Agenten ist es längerfristig die Summe der erhaltenen Reinforcement-Signale zu optimieren Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning Reinforcement-Lernen Reinforcement-Learning und Umgebung Agent Umgebung Action ar Reward r Zu-stand s rt+1 st+1 Einführung in das Reinforcement Learning

RL-Modelleigenschaften Annahme: quasistationärer Zustand  Zustandsübergänge ändern sich nicht im Zeitablauf Kein überwachtes Lernen wie z.B. beim KNN, da keine Input-Output-Paare  Sammeln von Informationen über mögliche Systemzustände, Aktionen, Übergänge, Erträge Verwandtschaft zur KI, jedoch höheres Generalisierungsvermögen als symbolische Verfahren Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning RL-Modelltypen Modelle mit endlichem Horizont Optimieren des Ertrags über h Schritte: nichtstationäre Politik, falls der Zeithorizont h mit t gegen 0 geht, setzt begrenzte Lebensdauer des Agenten voraus stationäre Politik, wenn h gleitender Horizont ist Diskontierte Modelle mit unendl. Horizont Optimieren des diskontierte Ertrags über unendlich viele Schritte: Modelle mit durchschnittlichem Ertrag Optimieren des Durchschnittsertrags: Grenzfall des diskontierten Modells Einführung in das Reinforcement Learning

Reinforcement–Lernen und Adaptive–Regelung Adaptive Regelung (Adaptive Control) Struktur des dynamischen Modells wird im Gegensatz zum Reinforcement Lernen nicht verändert, Anpassungsproblem werden auf reine Parameterschätzung reduziert (Steuerung, bzw. Regelung) Ausbeutung contra Erkundung (Exploitation vs. Exploration) Hauptunterschied zwischen Reinforcement Lernen und überwachtem Lernen ist die Tatsache, dass ein Reinforcement System seine Umwelt erkunden muss um seine Performance zu verbessern Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning Zustands-Wert-Funktion Zustands-Wert-Funktion V einer beliebigen Politik a4, r4 a2, r2 a3, r3 a5, r5 a1, r1 a6, r6 Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning Aktions-Wert-Funktion Aktions-Wert-Funktion Q einer beliebigen Politik a4, r4 a2, r2 a5, r5 a1, r1 a3, r3 a6, r6 s1 s2 Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning Optimale Zustands- und Aktions-Wert-Funktion Optimale Zustands-Wert-Funktion V* : Optimale Aktions-Wert-Funktion Q* ausgedrückt über V*: Einführung in das Reinforcement Learning

Dynamische Programmierung Lösung eines Entscheidungsproblems: in einem Entscheidungsbaum durch Ausprobieren aller Möglichkeiten und Ermittlung des besten Wegs Off–line Version: Ex-ante werden möglichen Lösungen durchgerechnet und nach Vorlage (look–up-table) entschieden On–line Version: Während des Entscheidungs-prozesses werden neue Lösungsvarianten berechnet. Zustandsraum: exponentielles Wachstum Bellman’s curse of dimensionality: “at high dimensions every object is far to another” Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning Dynamische Programmierung Dynamische Programmierung (DP): Bellmanns-Optimalitätsgleichung: Optimaler Wert des Zustandes s ist gleich dem abdiskontierten optimalen Wert des nächsten Zustandes addiert zur optimalen erwarteten Belohnung von r in t +1 Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning Wertiteration Algorithmus: Value-Iteration initialisiere V(s) beliebig wiederhole bis Entscheidungspolitik gut genug wiederhole für ende Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning Wertiteration Abbruchbedingung des Greedy–Algorithmus Bellmansches Residual–Kriterium <  full-backup (FB) Value-Iteration nach obigem Beispiel sample-backup (SB) Umformung der Update–Gleichung: Komplexität: FB-Algorithmus: O(|S|2|A|) p.It. Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning Politikiteration Algorithmus: Policy-Iteration initialisiere Entscheidungspolitik beliebig wiederhole berechne die Wertfunktion der Entscheidungspolitik löse das lineare Gleichungssystem verbessere die Entscheidungspolitik für jeden Zustand: bis Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning Politikiteration Eigenschaften: Wertfunktion der Entscheidungspolitik: unendlicher diskontierte Ertrag für jeden durch Ausübung der Entscheidungspolitik erreichten Zustand Lösung eines linearen Gleichungssystems Ermittlung jeden Zustandswerts unter der aktuellen Entscheidungspolitik  Versuch die Entscheidungspolitik zu verbessern Komplexität: Max Entscheidungspolitiken  O(|S|2|A|+|S|3) pro Iteration Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning Monte-Carlo-Methode Monte-Carlo-Methode Lernen durch Erfahrung Einteilung in Episoden kein kompletter Durchlauf des Entscheidungsbaumes notwendig  sample backup Generierung von Durchschnitts-Returns zur Bestimmung von V(s) Unterteilung: first-visit Monte-Carlo every-visit Monte-Carlo Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning Monte-Carlo-Methode first visit Monte-Carlo-Methode zur Schätzung von V - generiere eine Episode; wähle eine Politik - durchlaufe die gesamte Episode, bilde Durchschnittsreturns R für jedes V(s), das besucht wird, verwende dazu alle Returns, die in dieser Episode auf das jeweilige s folgen - bei erneuten Durchläufen: bilde nur für die V(s) Durchschnittsreturns, die in vorherigen Durchläufen noch nicht besucht wurden Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning Monte-Carlo-Methode a2, r2 r1 = 2 Beispiel: r3 = 5 r7 = 6 r4 = 4 r8 = 9 Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning Monte-Carlo-Methode every visit Monte-Carlo-Methode zur Schätzung von V - generiere eine Episode; wähle eine Politik - durchlaufe die gesamte Episode, bilde Durchschnittsreturns für jedes V(s), das besucht wird, verwende dazu alle Returns, die in dieser Episode auf das jeweilige s folgen - bei erneuten Durchläufen: bilde für jedes V(s) neue Durchschnittsreturns nach obigem Muster, egal ob das jeweilige V(s) schon existiert oder nicht Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning Monte-Carlo-Methode Beispiel: r3 = 5 a2, r2 r1 = 2 r4 = 4 r7 = 6 r8 = 9 Update-Regel: V(st)  V(st) + [Rt - V(st)] Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning Temporal-Difference-Lernen Temporal-Difference-Learning: - kombiniert Dynamische Programmierung mit Monte-Carlo-Methode - Einteilung in Episoden - setzt am Anfang der Durchläufe für jedes V(s) Schätzwerte - korrigiert Schätzwert für V(st) über Summe aus folgendem Return und folgender Zustands- wertfunktion Episode muss zur Bildung von Schätzwerten nicht komplett durchlaufen werden ! Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning Temporal-Difference-Lernen Beispiel: r3 r7 r1 r4 r8 Update-Regel: Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning On/Off-Policy-Methode On-policy-Methode: Politik, mit der das Verhalten im Entscheidungsbaum generiert wird ist mit der, mit der V(s) geschätzt wird, identisch Off-policy-Methode: Verhaltenspolitik und Politik, mit der V(s) geschätzt wird, sind nicht identisch: Durchlauf des Entscheidungsbaumes wird bestimmt mit Verhaltenspolitik, V(s) wird geschätzt über Schätzpolitik Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning Q-Lernen Q-Learning: Off-Policy Temporal-Difference-Learning - Optimaler Weg wird nicht über Update von V(s), sondern über Update von Q(s,a) bestimmt - Verhaltenspolitik bestimmt Durchlauf des Entscheidungsbaumes - Schätzpolitik wird zum Update von Q(s,a) verwendet - Verhaltenspolitik ist -greedy; Schätzpolitik ist greedy - Vorteil: globales Optimum wird mit größerer Wahrscheinlichkeit gefunden Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning Q-Lernen Vorgehensweise: Wiederhole für jede Episode: 1. Gehe von einem bestimmten s aus 2. Wähle eine Aktion a, ausgehend von s und unter Zuhilfenahme der gewählten Verhaltenspolitik z.B. -greedy 3. Beobachte Return r und Zustand s‘ 4. Erstelle ein Update von Q folgendermaßen: 5. Gehe von s zu s‘ Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning Generalisierung Größere RL–Umgebungen: unmöglich die Zustandsräume vollständig zu enumerieren und Werte zu speichern stetigen Zustandsräume  kompakte Darstellung Kompressions- und Generalisierungstechniken subsymbolische Lernverfahren: Neuronale Netze, Fuzzy-Logik, lineare Regressionsverfahren, Nächster Nachbar Verfahren Kompressionsverfahren zur Merkmalsextraktion ist z.B. Hauptkomponentenanalyse (PCA) Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning Komprimierung Abzubildenden Speicherbereiche: S  A (Entscheidungspolitik) S  R (Wertfunktion) S x A R (Q-Funktion und Erträge) S x A x S [0,1] (Übergangswahrscheinlichkeiten) Meist Abbildung im überwachten Lernverfahren Entscheidungspolitik: keine Input-Output Trainingspaare sind vorhanden Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning Komprimierung Auswertung Näherung der Wegkosten von Zustand j Neuronales Netz/ Näherungstabelle für Parameter r Zustand j J(j,r) J(f(i),r) Merkmalsvektor f(i) Zustand i Merkmalsextraktion Neuronales Netz/ Näherungsfkt. für Parametervektor r J(f(i),r) Merkmalsvektor f(i) Zustand i Merkmalsextraktion Neuronales Netz/ Näherungsfkt. für Parametervektor r Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning Ausblick Bepreisung und Optimierung von Rechnerlast ist nicht gleichzeitig möglich  stufenweise Vorgehensweise Evtl. Rückkopplung von Lastoptimierung mit anschließender Bepreisung Neuerer Ansatz: Inkorporation der Bepreisung in ein RL-Modell Einbeziehung von kombinatorischen Auktionsverfahren Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning Literatur D.P.Bertsekas, J.N.Tsitsiklis, Neuro-Dynamic Programming, Athena Scientific, Belmont, MA, 1996 M.L.Putermann, Markov Decision Processes: Discrete Stochastic Dynamic Programming, Wiley, New York, 1994 R.S.Sutton, A.G. Barto, Reinforcement Learning: An Introduction, MIT Press, Cambridge, MA, 1998 http://interactive.wiwi.uni-frankfurt.de Einführung in das Reinforcement Learning