Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Haduwig Leder Geändert vor über 11 Jahren
1
Agent Based Supply Chain Management1 ABSCM-Vorlesung im WS 2001/2002
2
Agent Based Supply Chain Management2 Lernen in Multiagentensystemen (Sandip Sen, Gerhard Weiss)
3
Agent Based Supply Chain Management3 Merkmale verteilten Lernens Hauptkategorien verteilten Lernens –zentral / dezentral Grad der Dezentralisierung –Verteiltheit (zentral / MAS) –Parallelität (sequentiell ein Agent / parallel MAS) Interaktionsspezifische Eigenschaften Grad der Interaktion (Beobachtung / Signal- / Informationsaustausch / Verhandlung) Fortdauer der Interaktion (kurz / lang) Häufigkeit der Interaktion (niedrig / hoch) Interaktionsmuster (unstrukturiert / hierarchisch) Veränderlichkeit der Interaktion (fest / variabel)
4
Agent Based Supply Chain Management4 Merkmale verteilten Lernens Mitwirkungsgebundene Eigenschaften –Relevanz der Einbindung (eigene Ausführung / Anleitung) Rolle während der Einbindung –Generalisten / Spezialisten Zielspezifische Eigenschaften –Arten der Verbesserung beim Lernen –eigenes Handeln / gemeinschaftliche Zielerreichung Vereinbarkeit der Lernziele –Unterscheidung: komplementäre und konfligierende Lernziele
5
Agent Based Supply Chain Management5 Merkmale verteilten Lernens Lernmethoden –Routinelernen –Lernen durch Anleitung –Lernen am Beispiel und aus Erfahrung –Analogielernen –Lernen durch Entdecken
6
Agent Based Supply Chain Management6 Merkmale verteilten Lernens Lernkontrolle –Überwachtes Lernen: Lehrer Rückkopplung / Aktivität wird überwacht –Bestätigungslernen (RL): Kritiker Rückkopplung / Nutzen wird überwacht –Nicht überwachtes Lernen: Beobachter Keine Rückkopplung / Trial and Error-Prinzip
7
Agent Based Supply Chain Management7 Credit Assignment Problem Das Belohnungsproblem (Credit Assignment Problem) –Zuweisung von Lob und Tadel –CAP: Ursache/Wirkungs-Prinzip Problem: richtige Zuordnung von Lob und Tadel –Inter–Agenten-CAP: Bewertet Systemreaktion bezüglich des Handelns einzelner Agenten im MAS –Intra–Agenten-CAP: Bewertung von Einzelaktionen innerhalb des Aktionsgefüges eines Agenten
8
Agent Based Supply Chain Management8 Credit Assignment Problem Inter-Agenten-CAP Intra-Agenten-CAP
9
Agent Based Supply Chain Management9 Reinforcement Learning Bekräftigungssignal als Rückkopplung: Reward r Markovscher Entscheidungsprozess aus- gedrückt als 4er-Tupel -S : Zustandsraum -A : Aktionsraum - Wahrscheinlichkeit des Zustandsübergangs von s 1 nach s 2 unter Ausführung von Aktion a
10
Agent Based Supply Chain Management10 Reinforcement Learning RL-Agent Umgebung Bekräftigungslernender Agent in seiner Umwelt Zustand stst r t+1 s t+1 Reward
11
Agent Based Supply Chain Management11 Reinforcement Learning -Jeder Agent besitzt eine Entscheidungspolitik die eine Abbildung des aktuellen Zustands s auf die nächsten Aktionen a vornimmt - -Die Zustandswertfunktion ist die mit diskontierte Summe der erwarteten zukünftigen Bekräftigungssignale r einer Politik
12
Agent Based Supply Chain Management12 Zustandswert-Funktion V einer beliebigen Politik a 4, r 4 a 2, r 2 a 3, r 3 a 5, r 5 a 1, r 1 a 6, r 6 Zustandswert-Funktion
13
Agent Based Supply Chain Management13 Aktionswert-Funktion a 4, r 4 a 2, r 2 a 5, r 5 a 1, r 1 a 3, r 3 a 6, r 6 s1s1 s2s2 Aktionswert-Funktion Q einer beliebigen Politik
14
Agent Based Supply Chain Management14 Q-Learning -Ziel: Finden einer optimalen Politik * die für alle Zustände maximiert - Die Entscheidungspolitik schätzt den langfristigen diskontierten Reward für jedes (s,a)-Paar einer Politik - bezeichnet die Q-Werte, wobei a, die Auswahlsequenz für a zum aktuellen Zeitpunkt unter Beachtung der Auswahlpolitik beschreibt. (Aktionswert)
15
Agent Based Supply Chain Management15 Q-Learning - für alle : Der optimale Zustandswert ergibt sich aus dem Aktionswert unter Berücksichtigung der optimalen Politik. -Regel zum Aktualisieren des Q-Wertes beim Durchführen einer Aktion a beim Übergang zum Zustand s, welche die Bekräftigung (Reinforcement) R liefert, wobei die Lernrate ist.
16
Agent Based Supply Chain Management16 Vorgehensweise: Wiederhole für jede Episode: 1.Gehe von einem bestimmten s aus 2.Wähle eine Aktion a, ausgehend von s und unter Zuhilfenahme der gewählten Verhaltenspolitik z.B. -greedy 3.Beobachte Return r und Zustand s 4.Erstelle ein Update von Q folgendermaßen: 5.Gehe von s zu s Q-Learning
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.