Agent Based Supply Chain Management1 ABSCM-Vorlesung im WS 2001/2002
Agent Based Supply Chain Management2 Lernen in Multiagentensystemen (Sandip Sen, Gerhard Weiss)
Agent Based Supply Chain Management3 Merkmale verteilten Lernens Hauptkategorien verteilten Lernens –zentral / dezentral Grad der Dezentralisierung –Verteiltheit (zentral / MAS) –Parallelität (sequentiell ein Agent / parallel MAS) Interaktionsspezifische Eigenschaften Grad der Interaktion (Beobachtung / Signal- / Informationsaustausch / Verhandlung) Fortdauer der Interaktion (kurz / lang) Häufigkeit der Interaktion (niedrig / hoch) Interaktionsmuster (unstrukturiert / hierarchisch) Veränderlichkeit der Interaktion (fest / variabel)
Agent Based Supply Chain Management4 Merkmale verteilten Lernens Mitwirkungsgebundene Eigenschaften –Relevanz der Einbindung (eigene Ausführung / Anleitung) Rolle während der Einbindung –Generalisten / Spezialisten Zielspezifische Eigenschaften –Arten der Verbesserung beim Lernen –eigenes Handeln / gemeinschaftliche Zielerreichung Vereinbarkeit der Lernziele –Unterscheidung: komplementäre und konfligierende Lernziele
Agent Based Supply Chain Management5 Merkmale verteilten Lernens Lernmethoden –Routinelernen –Lernen durch Anleitung –Lernen am Beispiel und aus Erfahrung –Analogielernen –Lernen durch Entdecken
Agent Based Supply Chain Management6 Merkmale verteilten Lernens Lernkontrolle –Überwachtes Lernen: Lehrer Rückkopplung / Aktivität wird überwacht –Bestätigungslernen (RL): Kritiker Rückkopplung / Nutzen wird überwacht –Nicht überwachtes Lernen: Beobachter Keine Rückkopplung / Trial and Error-Prinzip
Agent Based Supply Chain Management7 Credit Assignment Problem Das Belohnungsproblem (Credit Assignment Problem) –Zuweisung von Lob und Tadel –CAP: Ursache/Wirkungs-Prinzip Problem: richtige Zuordnung von Lob und Tadel –Inter–Agenten-CAP: Bewertet Systemreaktion bezüglich des Handelns einzelner Agenten im MAS –Intra–Agenten-CAP: Bewertung von Einzelaktionen innerhalb des Aktionsgefüges eines Agenten
Agent Based Supply Chain Management8 Credit Assignment Problem Inter-Agenten-CAP Intra-Agenten-CAP
Agent Based Supply Chain Management9 Reinforcement Learning Bekräftigungssignal als Rückkopplung: Reward r Markovscher Entscheidungsprozess aus- gedrückt als 4er-Tupel -S : Zustandsraum -A : Aktionsraum - Wahrscheinlichkeit des Zustandsübergangs von s 1 nach s 2 unter Ausführung von Aktion a
Agent Based Supply Chain Management10 Reinforcement Learning RL-Agent Umgebung Bekräftigungslernender Agent in seiner Umwelt Zustand stst r t+1 s t+1 Reward
Agent Based Supply Chain Management11 Reinforcement Learning -Jeder Agent besitzt eine Entscheidungspolitik die eine Abbildung des aktuellen Zustands s auf die nächsten Aktionen a vornimmt - -Die Zustandswertfunktion ist die mit diskontierte Summe der erwarteten zukünftigen Bekräftigungssignale r einer Politik
Agent Based Supply Chain Management12 Zustandswert-Funktion V einer beliebigen Politik a 4, r 4 a 2, r 2 a 3, r 3 a 5, r 5 a 1, r 1 a 6, r 6 Zustandswert-Funktion
Agent Based Supply Chain Management13 Aktionswert-Funktion a 4, r 4 a 2, r 2 a 5, r 5 a 1, r 1 a 3, r 3 a 6, r 6 s1s1 s2s2 Aktionswert-Funktion Q einer beliebigen Politik
Agent Based Supply Chain Management14 Q-Learning -Ziel: Finden einer optimalen Politik * die für alle Zustände maximiert - Die Entscheidungspolitik schätzt den langfristigen diskontierten Reward für jedes (s,a)-Paar einer Politik - bezeichnet die Q-Werte, wobei a, die Auswahlsequenz für a zum aktuellen Zeitpunkt unter Beachtung der Auswahlpolitik beschreibt. (Aktionswert)
Agent Based Supply Chain Management15 Q-Learning - für alle : Der optimale Zustandswert ergibt sich aus dem Aktionswert unter Berücksichtigung der optimalen Politik. -Regel zum Aktualisieren des Q-Wertes beim Durchführen einer Aktion a beim Übergang zum Zustand s, welche die Bekräftigung (Reinforcement) R liefert, wobei die Lernrate ist.
Agent Based Supply Chain Management16 Vorgehensweise: Wiederhole für jede Episode: 1.Gehe von einem bestimmten s aus 2.Wähle eine Aktion a, ausgehend von s und unter Zuhilfenahme der gewählten Verhaltenspolitik z.B. -greedy 3.Beobachte Return r und Zustand s 4.Erstelle ein Update von Q folgendermaßen: 5.Gehe von s zu s Q-Learning