Die Präsentation wird geladen. Bitte warten

Die Präsentation wird geladen. Bitte warten

Agent Based Supply Chain Management1 ABSCM-Vorlesung im WS 2001/2002.

Ähnliche Präsentationen


Präsentation zum Thema: "Agent Based Supply Chain Management1 ABSCM-Vorlesung im WS 2001/2002."—  Präsentation transkript:

1 Agent Based Supply Chain Management1 ABSCM-Vorlesung im WS 2001/2002

2 Agent Based Supply Chain Management2 Lernen in Multiagentensystemen (Sandip Sen, Gerhard Weiss)

3 Agent Based Supply Chain Management3 Merkmale verteilten Lernens Hauptkategorien verteilten Lernens –zentral / dezentral Grad der Dezentralisierung –Verteiltheit (zentral / MAS) –Parallelität (sequentiell ein Agent / parallel MAS) Interaktionsspezifische Eigenschaften Grad der Interaktion (Beobachtung / Signal- / Informationsaustausch / Verhandlung) Fortdauer der Interaktion (kurz / lang) Häufigkeit der Interaktion (niedrig / hoch) Interaktionsmuster (unstrukturiert / hierarchisch) Veränderlichkeit der Interaktion (fest / variabel)

4 Agent Based Supply Chain Management4 Merkmale verteilten Lernens Mitwirkungsgebundene Eigenschaften –Relevanz der Einbindung (eigene Ausführung / Anleitung) Rolle während der Einbindung –Generalisten / Spezialisten Zielspezifische Eigenschaften –Arten der Verbesserung beim Lernen –eigenes Handeln / gemeinschaftliche Zielerreichung Vereinbarkeit der Lernziele –Unterscheidung: komplementäre und konfligierende Lernziele

5 Agent Based Supply Chain Management5 Merkmale verteilten Lernens Lernmethoden –Routinelernen –Lernen durch Anleitung –Lernen am Beispiel und aus Erfahrung –Analogielernen –Lernen durch Entdecken

6 Agent Based Supply Chain Management6 Merkmale verteilten Lernens Lernkontrolle –Überwachtes Lernen: Lehrer Rückkopplung / Aktivität wird überwacht –Bestätigungslernen (RL): Kritiker Rückkopplung / Nutzen wird überwacht –Nicht überwachtes Lernen: Beobachter Keine Rückkopplung / Trial and Error-Prinzip

7 Agent Based Supply Chain Management7 Credit Assignment Problem Das Belohnungsproblem (Credit Assignment Problem) –Zuweisung von Lob und Tadel –CAP: Ursache/Wirkungs-Prinzip Problem: richtige Zuordnung von Lob und Tadel –Inter–Agenten-CAP: Bewertet Systemreaktion bezüglich des Handelns einzelner Agenten im MAS –Intra–Agenten-CAP: Bewertung von Einzelaktionen innerhalb des Aktionsgefüges eines Agenten

8 Agent Based Supply Chain Management8 Credit Assignment Problem Inter-Agenten-CAP Intra-Agenten-CAP

9 Agent Based Supply Chain Management9 Reinforcement Learning Bekräftigungssignal als Rückkopplung: Reward r Markovscher Entscheidungsprozess aus- gedrückt als 4er-Tupel -S : Zustandsraum -A : Aktionsraum - Wahrscheinlichkeit des Zustandsübergangs von s 1 nach s 2 unter Ausführung von Aktion a

10 Agent Based Supply Chain Management10 Reinforcement Learning RL-Agent Umgebung Bekräftigungslernender Agent in seiner Umwelt Zustand stst r t+1 s t+1 Reward

11 Agent Based Supply Chain Management11 Reinforcement Learning -Jeder Agent besitzt eine Entscheidungspolitik die eine Abbildung des aktuellen Zustands s auf die nächsten Aktionen a vornimmt - -Die Zustandswertfunktion ist die mit diskontierte Summe der erwarteten zukünftigen Bekräftigungssignale r einer Politik

12 Agent Based Supply Chain Management12 Zustandswert-Funktion V einer beliebigen Politik a 4, r 4 a 2, r 2 a 3, r 3 a 5, r 5 a 1, r 1 a 6, r 6 Zustandswert-Funktion

13 Agent Based Supply Chain Management13 Aktionswert-Funktion a 4, r 4 a 2, r 2 a 5, r 5 a 1, r 1 a 3, r 3 a 6, r 6 s1s1 s2s2 Aktionswert-Funktion Q einer beliebigen Politik

14 Agent Based Supply Chain Management14 Q-Learning -Ziel: Finden einer optimalen Politik * die für alle Zustände maximiert - Die Entscheidungspolitik schätzt den langfristigen diskontierten Reward für jedes (s,a)-Paar einer Politik - bezeichnet die Q-Werte, wobei a, die Auswahlsequenz für a zum aktuellen Zeitpunkt unter Beachtung der Auswahlpolitik beschreibt. (Aktionswert)

15 Agent Based Supply Chain Management15 Q-Learning - für alle : Der optimale Zustandswert ergibt sich aus dem Aktionswert unter Berücksichtigung der optimalen Politik. -Regel zum Aktualisieren des Q-Wertes beim Durchführen einer Aktion a beim Übergang zum Zustand s, welche die Bekräftigung (Reinforcement) R liefert, wobei die Lernrate ist.

16 Agent Based Supply Chain Management16 Vorgehensweise: Wiederhole für jede Episode: 1.Gehe von einem bestimmten s aus 2.Wähle eine Aktion a, ausgehend von s und unter Zuhilfenahme der gewählten Verhaltenspolitik z.B. -greedy 3.Beobachte Return r und Zustand s 4.Erstelle ein Update von Q folgendermaßen: 5.Gehe von s zu s Q-Learning


Herunterladen ppt "Agent Based Supply Chain Management1 ABSCM-Vorlesung im WS 2001/2002."

Ähnliche Präsentationen


Google-Anzeigen