Agent Based Supply Chain Management1 ABSCM-Vorlesung im WS 2001/2002.

Slides:



Advertisements
Ähnliche Präsentationen
Entscheidungsunterstützungssysteme IWI Frankfurt 2004
Advertisements

DFG-Forschungsprojekt
Eine dynamische Menge, die diese Operationen unterstützt,
Statistische Aspekte der PSG
Wissensanalyse von Aufgaben mit TKS Eine Methode zur Problemlösung
Zero- Knowledge- Beweise
Bounded Model Checking II
Genetische Algorithmen für die Variogrammanpassung
Raumwirtschaftslehre
Einführung Künstliche Intelligenz Steuerungs- und Regelungstechnik
An Axiomatic Proof Technique for Parallel Programs
1/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Projektgruppe KIMAS Reinforcement Learning in MAS Marc Pannenberg.
Informierte Suche.
Spielbäume Richard Göbel.
Lernende Agenten Seminar Softwareagenten Wintersemester 2001/2002 Norman Neuhaus.
Schleifen-beobachtung
Algorithmentheorie 6 – Greedy-Verfahren
Informatik II, SS 2008 Algorithmen und Datenstrukturen Vorlesung 16 Prof. Dr. Thomas Ottmann Algorithmen & Datenstrukturen, Institut für Informatik Fakultät.
Objektorientierte Konzepte
Portfoliomodelle Faktormodelle
Entscheidungsunterstützungssysteme IWI Frankfurt 2003
Agent Based Supply Chain Management1 ABSCM-Vorlesung im WS 2001/2002.
Agent Based Supply Chain Management1 ABSCM-Vorlesung im WS 2001/2002.
Reinforcement Learning
PG 520 Intelligence Service – gezielte Informationen aus dem Internet
Vorlesung 9.2: Specification Universität Bielefeld – Technische Fakultät AG Rechnernetze und verteilte Systeme Peter B. Ladkin
1/25 UNIVERSITY OF PADERBORN Projektgruppe KIMAS Projektgruppe KIMAS MultiAgenten-Systeme Andreas Goebels.
Was sind Histogramme? (1)
Minimum Spanning Tree: MST
F FnFn z Prof. Dr. Johann Graf Lambsdorff Universität Passau SS a. Anhang zur Bestimmung der optimalen Taylor-Regel.
Einführung in die Sportwissenschaft Wissenschaft und Praxis
Unser zehntes Tutorium Materialien unter:
Machine Learning Was wir alles nicht behandelt haben.
Ziel der Veranstaltung
Christian Scheideler Institut für Informatik Universität Paderborn
Reinforcement Learning 2
Qualität und Evaluation im Unterricht
Effiziente Algorithmen
ELearningForum #34 Ideen-Wettbewerb Markus Riegler Student "Engineering for Computer Based Learning an der FH-Hagenberg z.Z. Praktikant an der ZHW.
Verwendung von Maschinellem Lernen in einer einfachen Computerspielumgebung Anglberger Harald Brandl Stephan Mai 2003.
Theorien, Methoden, Modelle und Praxis
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 04/
VISION, LEITBILD, STRATEGIE ÖKOLOGISCHE VERANTWORTUNG
WINTEGRATION®.
Praxisorientierte Problemlösung u. Moderation
Transaktion Huang Zhenhao FU Shuai.
Pädagogik Pädagogische Grundbegriffe Stundenaufbau Methodische Formen
Wertemanagement Die Übergänge zwischen den Wertesystemen.
Zustandsübergangsdiagramme (1)
Das Bernoulli-Prinzip
Birgit Wittenberg Kompetenzzentrum eLearning Niedersachsen
Programmierung von Agenten in Java: Implementierung einer Supply-Chain
1 Albert-Ludwigs-Universität Freiburg Rechnernetze und Telematik Prof. Dr. Christian Schindelhauer Informatik III Christian Schindelhauer Wintersemester.
Enhydra Shark Workflow-Management Frank Aurich Markus Reisch.
On-Demand™ Der “Markt” ist... Demo Modus: mit Hilfe von Grafiken, Sound (Sprache), Text und Animationen werden Lernsequenzen in Folge abgespielt - ähnlich.
Bienert EDV Software für das 21. Jahrhundert Der Einsatzplaner ist das ideale Hilfsmittel für alle, die Personal zu organisieren.
Lernen 1. Vorlesung Ralf Der Universität Leipzig Institut für Informatik
K. Desch - Statistik und Datenanalyse SS05
AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler Universität Hamburg Fachbereich Informatik.
Information - syntaktisch
SysBO an RS 2.VeranstaltungWürzburg 4. März 2015 Systematische Berufsorientierung an Realschulen in Unterfranken Gerhard Waigandt Teamleiter Berufsberatung.
Konstruktivismus Konstruktivismus geht davon aus, dass Informationen nicht einfach aufgenommen, verarbeitet und gespeichert werden, sondern dass sie durch.
WENN-Funktion im Excel
Geoinformationssysteme
Was sind Verbesserungs-Workshops?
Prof. Dr. Andrea Back Krems-Kurs Herbst 2008 Seite 1 Zehn Fachbegriffe zur Strategy Map (nach Kaplan/Norton, 2004, deutsch) Vorlage für Ihre persönlichen.
CHANCE – Unternehmenssimulator für unternehmerisches Denken und Handeln The best way of learning about entrepreneurship is through direct experience and.
Emanuel Mistretta Lukas Schönbächler
 Präsentation transkript:

Agent Based Supply Chain Management1 ABSCM-Vorlesung im WS 2001/2002

Agent Based Supply Chain Management2 Lernen in Multiagentensystemen (Sandip Sen, Gerhard Weiss)

Agent Based Supply Chain Management3 Merkmale verteilten Lernens Hauptkategorien verteilten Lernens –zentral / dezentral Grad der Dezentralisierung –Verteiltheit (zentral / MAS) –Parallelität (sequentiell ein Agent / parallel MAS) Interaktionsspezifische Eigenschaften Grad der Interaktion (Beobachtung / Signal- / Informationsaustausch / Verhandlung) Fortdauer der Interaktion (kurz / lang) Häufigkeit der Interaktion (niedrig / hoch) Interaktionsmuster (unstrukturiert / hierarchisch) Veränderlichkeit der Interaktion (fest / variabel)

Agent Based Supply Chain Management4 Merkmale verteilten Lernens Mitwirkungsgebundene Eigenschaften –Relevanz der Einbindung (eigene Ausführung / Anleitung) Rolle während der Einbindung –Generalisten / Spezialisten Zielspezifische Eigenschaften –Arten der Verbesserung beim Lernen –eigenes Handeln / gemeinschaftliche Zielerreichung Vereinbarkeit der Lernziele –Unterscheidung: komplementäre und konfligierende Lernziele

Agent Based Supply Chain Management5 Merkmale verteilten Lernens Lernmethoden –Routinelernen –Lernen durch Anleitung –Lernen am Beispiel und aus Erfahrung –Analogielernen –Lernen durch Entdecken

Agent Based Supply Chain Management6 Merkmale verteilten Lernens Lernkontrolle –Überwachtes Lernen: Lehrer Rückkopplung / Aktivität wird überwacht –Bestätigungslernen (RL): Kritiker Rückkopplung / Nutzen wird überwacht –Nicht überwachtes Lernen: Beobachter Keine Rückkopplung / Trial and Error-Prinzip

Agent Based Supply Chain Management7 Credit Assignment Problem Das Belohnungsproblem (Credit Assignment Problem) –Zuweisung von Lob und Tadel –CAP: Ursache/Wirkungs-Prinzip Problem: richtige Zuordnung von Lob und Tadel –Inter–Agenten-CAP: Bewertet Systemreaktion bezüglich des Handelns einzelner Agenten im MAS –Intra–Agenten-CAP: Bewertung von Einzelaktionen innerhalb des Aktionsgefüges eines Agenten

Agent Based Supply Chain Management8 Credit Assignment Problem Inter-Agenten-CAP Intra-Agenten-CAP

Agent Based Supply Chain Management9 Reinforcement Learning Bekräftigungssignal als Rückkopplung: Reward r Markovscher Entscheidungsprozess aus- gedrückt als 4er-Tupel -S : Zustandsraum -A : Aktionsraum - Wahrscheinlichkeit des Zustandsübergangs von s 1 nach s 2 unter Ausführung von Aktion a

Agent Based Supply Chain Management10 Reinforcement Learning RL-Agent Umgebung Bekräftigungslernender Agent in seiner Umwelt Zustand stst r t+1 s t+1 Reward

Agent Based Supply Chain Management11 Reinforcement Learning -Jeder Agent besitzt eine Entscheidungspolitik die eine Abbildung des aktuellen Zustands s auf die nächsten Aktionen a vornimmt - -Die Zustandswertfunktion ist die mit diskontierte Summe der erwarteten zukünftigen Bekräftigungssignale r einer Politik

Agent Based Supply Chain Management12 Zustandswert-Funktion V einer beliebigen Politik a 4, r 4 a 2, r 2 a 3, r 3 a 5, r 5 a 1, r 1 a 6, r 6 Zustandswert-Funktion

Agent Based Supply Chain Management13 Aktionswert-Funktion a 4, r 4 a 2, r 2 a 5, r 5 a 1, r 1 a 3, r 3 a 6, r 6 s1s1 s2s2 Aktionswert-Funktion Q einer beliebigen Politik

Agent Based Supply Chain Management14 Q-Learning -Ziel: Finden einer optimalen Politik * die für alle Zustände maximiert - Die Entscheidungspolitik schätzt den langfristigen diskontierten Reward für jedes (s,a)-Paar einer Politik - bezeichnet die Q-Werte, wobei a, die Auswahlsequenz für a zum aktuellen Zeitpunkt unter Beachtung der Auswahlpolitik beschreibt. (Aktionswert)

Agent Based Supply Chain Management15 Q-Learning - für alle : Der optimale Zustandswert ergibt sich aus dem Aktionswert unter Berücksichtigung der optimalen Politik. -Regel zum Aktualisieren des Q-Wertes beim Durchführen einer Aktion a beim Übergang zum Zustand s, welche die Bekräftigung (Reinforcement) R liefert, wobei die Lernrate ist.

Agent Based Supply Chain Management16 Vorgehensweise: Wiederhole für jede Episode: 1.Gehe von einem bestimmten s aus 2.Wähle eine Aktion a, ausgehend von s und unter Zuhilfenahme der gewählten Verhaltenspolitik z.B. -greedy 3.Beobachte Return r und Zustand s 4.Erstelle ein Update von Q folgendermaßen: 5.Gehe von s zu s Q-Learning