DFG-Forschungsprojekt

DFG-Forschungsprojekt
Einführung in das Reinforcement-Learning DFG-Forschungsprojekt Einführung in das Reinforcement Learning

Einführung in das Reinforcement Learning
Definition Allgemein: Automatisierung der Bepreisung von Internetdienstleistungen im Sinne eines optimalen Ertrags-Managements Ziel: Kopplung der Bepreisung von Arbeitsaufträgen an Rechnersysteme mit der Auslastungsoptimierung der Ressourcen Instrumentarium: Stochastische Dynamische Programmierung, Reinforcement Learning, Neuronale Netze, Genetische Algorithmen Einführung in das Reinforcement Learning

Beispiel für Auslastungsverteilung
Lastverteilung des Rechenzentrums des Landes Niedersachsen über eine Woche Einführung in das Reinforcement Learning

Praxisbezug Grundproblem: Last auf Rechnersystemen ist einerseits nichtdeterministisch, (stochastisch verteilt) andererseits folgt sie gewissen Gesetzmäßigkeiten bedingt durch die Verhaltensweisen der Nutzer z.B. Abruf von Börsenkursen ab 9 Uhr, oder Video on Demand in den Abendstunden, usw. Idee: Einführung einer Preisstaffel nach Angebot und Nachfrage Einführung in das Reinforcement Learning

Resultierende Problemstellungen
Bekannte Problemtypen: Queueing–Probleme (zeitlich und örtlich) Scheduling–Probleme (zeitlich und örtlich) Routing–Probleme (örtlich) File–Allocation–Probleme (örtlich) Load–Balancing–Probleme (örtlich und zeitlich) Einwand: Diese Anwendungsbereiche sind klassische Forschungsgebiete der Informatik Ökonomische Sicht: Für anzufordernde Arbeitspakete werden Preise ausgehandelt Einführung in das Reinforcement Learning

Aufgabenumfeld Aufträge treffen stochastisch auf ein Netz von Rechnern und sollen dort möglichst zeitnah verarbeitet werden Aufträge tragen Preise (zugewiesen oder ermittelt) und haben bestimmte Ablaufdauer Bearbeitung der Aufträge ist in Grenzen zeitlich variabel Ziel: Auslastung der Rechnerkapazitäten so, dass der Ertrag maximiert wird Einführung in das Reinforcement Learning

Zuweisungsproblem Zeitpunkt des Eintreffens und Größe neuer Aufträge ist nicht bekannt Kleine Aufträge können größere Aufträge blockieren, falls sie zu früh angenommen werden und schmälern somit den Ertrag, wenn kein neuer Auftrag eintrifft Werden kleinere Aufträge nicht angenommen und kommt kein größerer Auftrag, so entgeht ebenfalls Gewinn Assoziiert: Verteilung der Aufträge unter den Rechnersystemen Einführung in das Reinforcement Learning

Lösungsansätze Yield-Management (YM) mit dynamischer Programmierung (DP) Voraussetzung: Teil der zu bearbeiteten Aufträge steht in einer Warteschleife vor dem Rechnernetz Vorteil: Problem ist analytisch lösbar durch das Ermitteln von Restwertfunktionen im Zusammen-hang mit dynamischer Programmierung Nachteil: Für größere Probleme nicht mehr in vertretbarer Zeit lösbar (evtl. nicht real-time-fähig) Lösung: Formulieren der analytischen Lösung durch Näherungsverfahren (NN, GA) als look-up-Tabelle Einführung in das Reinforcement Learning

Lösungsansätze Reinforcement-Learning (RL) mit DP Voraussetzung: Eingang der Aufträge folgt, neben der Markov-Eigenschaft auch bestimmten Mustern die sich wiederholen (Bayes-Anteil wird erwartet) Vorteil: Bepreisung ist in die Reinforcement-Funktion integrierbar, Problem ist in Echtzeit zu lösen, Zeithorizont der Vorlaufphase ist stufenlos verstellbar, mit steigender Einsatzzeit wächst die Performance des Systems Nachteil: Online-Training erforderlich, zuerst schlechtere Performance Lösung: Vorbereiten des Systems mit Offline-Daten Einführung in das Reinforcement Learning

Markov-Eigenschaft Markov–Eigenschaft Zustandsübergänge sind unabhängig von den vor-hergehenden Umweltzuständen und Entscheidungen Markov–Kette Kette von stochastischen Ereignissen, die ihre Vergangenheit vergisst, d.h. die Auftrittswahrschein-lichkeit eines neuen Ereignisses einer Markov–Kette (0-ter Ordnung) ist unabhängig von der Auftritts-wahrscheinlichkeit der vorhergehenden Ereignisse Einführung in das Reinforcement Learning

Markovsche Entscheidungsprozesse
Markovscher Entscheidungsprozess (MDP) besteht aus: Menge von Zuständen S Menge von Aktionen A Ertragsfunktion R Zustandsübergangsfunktion T Zustandsübergangsfunktion: Zustände werden auf Wahrscheinlichkeiten abbildet, wobei (s) die Entscheidungspolitik in Zustand s ist. T(s, a, s’) ist die Wahrscheinlichkeit eines Zustandsübergangs von Zustand s zu Zustand s’ unter Berücksichtigung von Aktion a Einführung in das Reinforcement Learning

Lernen in der KI Lernmethoden: Routinelernen Lernen durch Anleitung Lernen am Beispiel und aus Erfahrung Analogielernen Lernen durch Entdecken Lernkontrolle: Überwachtes Lernen: Lehrer z.B.: KNN Bestätigungslernen: Kritiker z.B.: RL Nicht überwachtes Lernen: Beobachter z.B.: LSE Einführung in das Reinforcement Learning

Formalisierung der Ausgangssituation Entscheidungsbaum s s‘ s‘‘ a4, r4 a2, r2 a3, r3 a5, r5 a1, r1 a6, r6 Politik gibt Wahrscheinlichkeiten für Wege an, den Entscheidungsbaum zu durchlaufen Einführung in das Reinforcement Learning

Reinforcement-Lernen
Bestätigungs-Lernen: als Wissenschaft in den letzten 10 Jahren etabliert Ursprünge: Kybernetik, Psychologie, Statistik, Neurowissenschaften, KI, Robotik Ziel: Programmieren von Agenten durch Belohnung und Bestrafung ohne die Notwendigkeit der expliziten Festlegung der Aufgabendurchführung Methode: Agent handelt in einem dynamischen Umfeld und lernt durch trail-and-error Einführung in das Reinforcement Learning

Reinforcement-Lernen
Reinforcement-Learning (RL) Agent ist mit der Umwelt durch eine Sensorik verbunden In jedem Interaktionsschritt erhält der Agent einen Input i und Rückmeldung über Umweltzustand s Agent wählt eine Aktion a als Output, die den Umweltzustand ändert Agent bekommt den Wert der Aktion durch Reinforcement Signal mitgeteilt Ziel des Agenten ist es längerfristig die Summe der erhaltenen Reinforcement-Signale zu optimieren Einführung in das Reinforcement Learning

Reinforcement-Lernen Reinforcement-Learning und Umgebung Agent Umgebung Action ar Reward r Zu-stand s rt+1 st+1 Einführung in das Reinforcement Learning

RL-Modelleigenschaften
Annahme: quasistationärer Zustand  Zustandsübergänge ändern sich nicht im Zeitablauf Kein überwachtes Lernen wie z.B. beim KNN, da keine Input-Output-Paare  Sammeln von Informationen über mögliche Systemzustände, Aktionen, Übergänge, Erträge Verwandtschaft zur KI, jedoch höheres Generalisierungsvermögen als symbolische Verfahren Einführung in das Reinforcement Learning

RL-Modelltypen Modelle mit endlichem Horizont Optimieren des Ertrags über h Schritte: nichtstationäre Politik, falls der Zeithorizont h mit t gegen 0 geht, setzt begrenzte Lebensdauer des Agenten voraus stationäre Politik, wenn h gleitender Horizont ist Diskontierte Modelle mit unendl. Horizont Optimieren des diskontierte Ertrags über unendlich viele Schritte: Modelle mit durchschnittlichem Ertrag Optimieren des Durchschnittsertrags: Grenzfall des diskontierten Modells Einführung in das Reinforcement Learning

Reinforcement–Lernen und Adaptive–Regelung
Adaptive Regelung (Adaptive Control) Struktur des dynamischen Modells wird im Gegensatz zum Reinforcement Lernen nicht verändert, Anpassungsproblem werden auf reine Parameterschätzung reduziert (Steuerung, bzw. Regelung) Ausbeutung contra Erkundung (Exploitation vs. Exploration) Hauptunterschied zwischen Reinforcement Lernen und überwachtem Lernen ist die Tatsache, dass ein Reinforcement System seine Umwelt erkunden muss um seine Performance zu verbessern Einführung in das Reinforcement Learning

Zustands-Wert-Funktion Zustands-Wert-Funktion V einer beliebigen Politik a4, r4 a2, r2 a3, r3 a5, r5 a1, r1 a6, r6 Einführung in das Reinforcement Learning

Aktions-Wert-Funktion Aktions-Wert-Funktion Q einer beliebigen Politik a4, r4 a2, r2 a5, r5 a1, r1 a3, r3 a6, r6 s1 s2 Einführung in das Reinforcement Learning

Optimale Zustands- und Aktions-Wert-Funktion Optimale Zustands-Wert-Funktion V* : Optimale Aktions-Wert-Funktion Q* ausgedrückt über V*: Einführung in das Reinforcement Learning

Dynamische Programmierung
Lösung eines Entscheidungsproblems: in einem Entscheidungsbaum durch Ausprobieren aller Möglichkeiten und Ermittlung des besten Wegs Off–line Version: Ex-ante werden möglichen Lösungen durchgerechnet und nach Vorlage (look–up-table) entschieden On–line Version: Während des Entscheidungs-prozesses werden neue Lösungsvarianten berechnet. Zustandsraum: exponentielles Wachstum Bellman’s curse of dimensionality: “at high dimensions every object is far to another” Einführung in das Reinforcement Learning

Dynamische Programmierung Dynamische Programmierung (DP): Bellmanns-Optimalitätsgleichung: Optimaler Wert des Zustandes s ist gleich dem abdiskontierten optimalen Wert des nächsten Zustandes addiert zur optimalen erwarteten Belohnung von r in t +1 Einführung in das Reinforcement Learning

Wertiteration Algorithmus: Value-Iteration initialisiere V(s) beliebig wiederhole bis Entscheidungspolitik gut genug wiederhole für ende Einführung in das Reinforcement Learning

Wertiteration Abbruchbedingung des Greedy–Algorithmus Bellmansches Residual–Kriterium <  full-backup (FB) Value-Iteration nach obigem Beispiel sample-backup (SB) Umformung der Update–Gleichung: Komplexität: FB-Algorithmus: O(|S|2|A|) p.It. Einführung in das Reinforcement Learning

Politikiteration Algorithmus: Policy-Iteration initialisiere Entscheidungspolitik beliebig wiederhole berechne die Wertfunktion der Entscheidungspolitik löse das lineare Gleichungssystem verbessere die Entscheidungspolitik für jeden Zustand: bis Einführung in das Reinforcement Learning

Politikiteration Eigenschaften: Wertfunktion der Entscheidungspolitik: unendlicher diskontierte Ertrag für jeden durch Ausübung der Entscheidungspolitik erreichten Zustand Lösung eines linearen Gleichungssystems Ermittlung jeden Zustandswerts unter der aktuellen Entscheidungspolitik  Versuch die Entscheidungspolitik zu verbessern Komplexität: Max Entscheidungspolitiken  O(|S|2|A|+|S|3) pro Iteration Einführung in das Reinforcement Learning

Monte-Carlo-Methode Monte-Carlo-Methode Lernen durch Erfahrung Einteilung in Episoden kein kompletter Durchlauf des Entscheidungsbaumes notwendig  sample backup Generierung von Durchschnitts-Returns zur Bestimmung von V(s) Unterteilung: first-visit Monte-Carlo every-visit Monte-Carlo Einführung in das Reinforcement Learning

Monte-Carlo-Methode first visit Monte-Carlo-Methode zur Schätzung von V - generiere eine Episode; wähle eine Politik - durchlaufe die gesamte Episode, bilde Durchschnittsreturns R für jedes V(s), das besucht wird, verwende dazu alle Returns, die in dieser Episode auf das jeweilige s folgen - bei erneuten Durchläufen: bilde nur für die V(s) Durchschnittsreturns, die in vorherigen Durchläufen noch nicht besucht wurden Einführung in das Reinforcement Learning

Monte-Carlo-Methode a2, r2 r1 = 2 Beispiel: r3 = 5 r7 = 6 r4 = 4 r8 = 9 Einführung in das Reinforcement Learning

Monte-Carlo-Methode every visit Monte-Carlo-Methode zur Schätzung von V - generiere eine Episode; wähle eine Politik - durchlaufe die gesamte Episode, bilde Durchschnittsreturns für jedes V(s), das besucht wird, verwende dazu alle Returns, die in dieser Episode auf das jeweilige s folgen - bei erneuten Durchläufen: bilde für jedes V(s) neue Durchschnittsreturns nach obigem Muster, egal ob das jeweilige V(s) schon existiert oder nicht Einführung in das Reinforcement Learning

Monte-Carlo-Methode Beispiel: r3 = 5 a2, r2 r1 = 2 r4 = 4 r7 = 6 r8 = 9 Update-Regel: V(st)  V(st) + [Rt - V(st)] Einführung in das Reinforcement Learning

Temporal-Difference-Lernen Temporal-Difference-Learning: - kombiniert Dynamische Programmierung mit Monte-Carlo-Methode - Einteilung in Episoden - setzt am Anfang der Durchläufe für jedes V(s) Schätzwerte - korrigiert Schätzwert für V(st) über Summe aus folgendem Return und folgender Zustands- wertfunktion Episode muss zur Bildung von Schätzwerten nicht komplett durchlaufen werden ! Einführung in das Reinforcement Learning

Temporal-Difference-Lernen Beispiel: r3 r7 r1 r4 r8 Update-Regel: Einführung in das Reinforcement Learning

On/Off-Policy-Methode On-policy-Methode: Politik, mit der das Verhalten im Entscheidungsbaum generiert wird ist mit der, mit der V(s) geschätzt wird, identisch Off-policy-Methode: Verhaltenspolitik und Politik, mit der V(s) geschätzt wird, sind nicht identisch: Durchlauf des Entscheidungsbaumes wird bestimmt mit Verhaltenspolitik, V(s) wird geschätzt über Schätzpolitik Einführung in das Reinforcement Learning

Q-Lernen Q-Learning: Off-Policy Temporal-Difference-Learning - Optimaler Weg wird nicht über Update von V(s), sondern über Update von Q(s,a) bestimmt - Verhaltenspolitik bestimmt Durchlauf des Entscheidungsbaumes - Schätzpolitik wird zum Update von Q(s,a) verwendet - Verhaltenspolitik ist -greedy; Schätzpolitik ist greedy - Vorteil: globales Optimum wird mit größerer Wahrscheinlichkeit gefunden Einführung in das Reinforcement Learning

Q-Lernen Vorgehensweise: Wiederhole für jede Episode: 1. Gehe von einem bestimmten s aus 2. Wähle eine Aktion a, ausgehend von s und unter Zuhilfenahme der gewählten Verhaltenspolitik z.B. -greedy 3. Beobachte Return r und Zustand s‘ 4. Erstelle ein Update von Q folgendermaßen: 5. Gehe von s zu s‘ Einführung in das Reinforcement Learning

Generalisierung Größere RL–Umgebungen: unmöglich die Zustandsräume vollständig zu enumerieren und Werte zu speichern stetigen Zustandsräume  kompakte Darstellung Kompressions- und Generalisierungstechniken subsymbolische Lernverfahren: Neuronale Netze, Fuzzy-Logik, lineare Regressionsverfahren, Nächster Nachbar Verfahren Kompressionsverfahren zur Merkmalsextraktion ist z.B. Hauptkomponentenanalyse (PCA) Einführung in das Reinforcement Learning

Komprimierung Abzubildenden Speicherbereiche: S  A (Entscheidungspolitik) S  R (Wertfunktion) S x A R (Q-Funktion und Erträge) S x A x S [0,1] (Übergangswahrscheinlichkeiten) Meist Abbildung im überwachten Lernverfahren Entscheidungspolitik: keine Input-Output Trainingspaare sind vorhanden Einführung in das Reinforcement Learning

Komprimierung Auswertung Näherung der Wegkosten von Zustand j Neuronales Netz/ Näherungstabelle für Parameter r Zustand j J(j,r) J(f(i),r) Merkmalsvektor f(i) Zustand i Merkmalsextraktion Neuronales Netz/ Näherungsfkt. für Parametervektor r J(f(i),r) Merkmalsvektor f(i) Zustand i Merkmalsextraktion Neuronales Netz/ Näherungsfkt. für Parametervektor r Einführung in das Reinforcement Learning

Ausblick Bepreisung und Optimierung von Rechnerlast ist nicht gleichzeitig möglich  stufenweise Vorgehensweise Evtl. Rückkopplung von Lastoptimierung mit anschließender Bepreisung Neuerer Ansatz: Inkorporation der Bepreisung in ein RL-Modell Einbeziehung von kombinatorischen Auktionsverfahren Einführung in das Reinforcement Learning

Literatur D.P.Bertsekas, J.N.Tsitsiklis, Neuro-Dynamic Programming, Athena Scientific, Belmont, MA, 1996 M.L.Putermann, Markov Decision Processes: Discrete Stochastic Dynamic Programming, Wiley, New York, 1994 R.S.Sutton, A.G. Barto, Reinforcement Learning: An Introduction, MIT Press, Cambridge, MA, 1998 Einführung in das Reinforcement Learning

DFG-Forschungsprojekt

Ähnliche Präsentationen

Präsentation zum Thema: "DFG-Forschungsprojekt"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

DFG-Forschungsprojekt

Ähnliche Präsentationen

Präsentation zum Thema: "DFG-Forschungsprojekt"— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback