Lernende Agenten Seminar Softwareagenten Wintersemester 2001/2002 Norman Neuhaus.

Slides:



Advertisements
Ähnliche Präsentationen
Agent Based Supply Chain Management1 ABSCM-Vorlesung im WS 2001/2002.
Advertisements

Risiko-Management im Projekt
WR + WS ZEIGEN Neues aus der Mathematik.
D. ZAMANTILI NAYIR – 8. SEMESTER
Wie lernt FUSC# mit TD( )? Marco Block... X1X1 X2X2 XNXN x1x1 x2x2 pd[i] =w1f1(x) + w2f2(x) + w3f3(x) wnfn(x)... w1f1(x) + w2f2(x) + w3f3(x) +...
Vorbesprechung zur Übungsaufgabe
1/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Projektgruppe KIMAS Reinforcement Learning in MAS Marc Pannenberg.
Ziele – warum?.
Genetische Algorithmen
Heuristiken und Kontexteinflüsse
Runde Fraktale Präsentation eines MatLab-Programms von Nele Fröse
Minimieren ohne Ableitungen
Universität Stuttgart Institut für Kernenergetik und Energiesysteme LE 3.1 ProzessqualitätLM 5 V-Modell-AnwendungenFolie 1 V-Modell für große Projekte.
Gliederung Vertrauensintervalle Arten von Hypothesen
Anfragesprachen – Dipl. Ing. Ulrich Borchert / FH Merseburg1/7 Datenbanken werden als Anhäufung von Werten eines Wertebereiches aufgefasst und Datenbankabfragen.
Aus dem Institut für Psychologie Methodik - Diagnostik - Evaluation der MDE-Titel.
WIRTSCHAFTSINFORMATIK Westfälische Wilhelms-Universität Münster WIRTSCHAFTS INFORMATIK Seminar Software Agenten Agenten als Informationsfilter Referent.
Genetische Algorithmen
FS_Geschwindigkeitsmessung
Reinforcement Learning
Kurs Datenbanken Anleitung zur Erstellung von Kombinationsfeldern in Formularen.
Verteilte Algorithmen
3. März 2000LS VI Workshop: Kalibrierung und Optimierung1/20 Kalibrierung und Optimierung in simulierten Multiagentensystemen Christoph Oechslein.
PIGGIWIN® Version 2.0 Verband Deutscher Oelmühlen e.V.
Nur wer aktiv ist, lernt! __________ Kooperatives Lernen und kooperative Lernformen im Religionsunterricht.
Kontrollfragen zu Kapitel 1
Konzeption und Realisierung von DSS
Maschinelles Lernen und automatische Textklassifikation
DIE ZUKUNFT GEHÖRT DER JUGEND??? Trifft das wirklich zu? Alle erzählen uns das...doch die Realität in unserer Stadt zwingt uns dazu unsere Träume aufzugeben.
GlobalStorehouseGlobalStorehouse Institut für Modellbildung und Simulation IMS Bemerkung: Mit diesem "MB" und "WBM" lässt sich der ganze Zyklus abdecken.
Histogramm/empirische Verteilung Verteilungen
Beweissysteme Hartmut Klauck Universität Frankfurt WS 06/
PRODUKTINFORMATION BILDSCHIRMFOTOS. Das Umwelt-Service-Portal (USP) ist das Wissens- und Informationszentrum Ihres Entsorgungsunternehmens. Technisch.
Management, Führung & Kommunikation
Der Spracherwerb des Kindes
Kundenbedürfnisse erheben
Computational Thinking Online Algorithmen [Was ist es wert, die Zukunft zu kennen?] Kurt Mehlhorn Konstantinos Panagiotou.
Theorien, Methoden, Modelle und Praxis
GIS - Seminar Wintersemester 2000/2001
Behalte diese Nachricht nicht.
Wahrscheinlichkeitsrechnung
© powered by Alchimedus ® Seite 1 Ihr Schnelleinstieg führt Sie durch GenoGyn QM interaktiv Kommen wir zu Ihrem ersten Schritt:
WINTEGRATION®.
Studieren Lernen Claudia Lischke-Arzt.
Auftrag 1 *Urbane Reserve Wie sollte man umgehen mit den Flächen, die nun durch Abriß leer und funktionslos sind? Sollte man sie einzäunen, Grünflächen.
Gutes Karma Dies sind die Worte des DALAI LAMA zum Beginn des neuen Jahrtausends am Nur ein paar Sekunden sind nötig, um sie zu lesen und über.
Unterprogramme in JAVA
Quelle WISO Copyright 2002 Seminar Personalumfragen 18. September 2002, Zürich Referat von Rolf Schoch, WI.SO DR. SCHOCH + PARTNER WIRTSCHAFTS -UND SOZIALFORSCHUNG.
Modell der vollständigen Handlung aus Wikipedia
Elternabend der Schule … vom …
2. MKT – Die verbale Selbstinstruktion Mi
Seite 1 © powered by Alchimedus ® Ihr Schnelleinstieg führt Sie durch RECHENFABRIK Medical QM interaktiv Kommen wir zu Ihrem ersten Schritt:
Evaluationsergebnisse Aufbaulehrgang TTVN –
Projekt „Projektname“ Alternativszenario
PÄDAGOGISCHES KONZEPT
Bildungszentren Rhein-Ruhr
Lernmodelle und Experimentelle Untersuchungen
Akademie für Lehrerfortbildung Esslingen
Beobachter – Lehrgang Burkhard Müller SRBO HV Sachsen1 Herzlich willkommen ! Viel Erfolg !
Schulungszentrum Fohnsdorf
Die KATA im KLASSENZIMMER
Wirtschaftlichkeitsrechnung-Investitionsrechnungsverfahren
Geoinformationssysteme
Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
Hilfs-Indikator Indikator
- Seite 1 TIME INTELLIGENCE ® by Zeichenrand – Löschen! Titel.
- Seite 1 TIME INTELLIGENCE ® by Titel.
Wie wird sich die Wissenschaft rund um Web Content Management Systeme 2016 entwickeln?
Coaching für Führungskräfte. Ausgangspunkt Coaching – Wann ist es sinnvoll? Fast jeder kommt im Beruf in schwierige Situationen, die einen gelegentlich.
 Präsentation transkript:

Lernende Agenten Seminar Softwareagenten Wintersemester 2001/2002 Norman Neuhaus

Gliederung zEinleitung zGrundlagen des Lernens zDer UPC-Algorithmus zLTEAM zFazit

Wieso lernende Agenten? zEinsatz in komplexen, evt. dynamischen Umgebungen zAutomatische Ermittlung optimaler Parameter zpersonalisierte Anwendungen möglich, ohne Anwender Regeln programmieren zu lassen

Zentralisiertes Lernen zJeder Agent lernt für sich alleine ztrotzdem sind mehrere Agenten in einer Umgebung möglich

Dezentralisiertes Lernen zLernen erfolgt arbeitsteilig zkann als Spezialisierung und/oder Parallelisierung erfolgen

Weitere Unterscheidungen zIst der Agent selbst im System aktiv oder lernt er auf Basis der Beobachtung anderer Agenten? zWann und in welcher Form erfolgt eine Rückmeldung? zLernumgebung ist immer abhängig von gestellter Aufgabe

Credit Assignment Problem zFür Lernen muß immer eine Rückmeldung erfolgen zProblem: Wie kann ich einer einzelnen Aktion eines einzelnen Agenten den richtigen Anteil am Gesamterfolg zurechnen? zBeispiel: Wir haben einen Gesamterfolg von 2600 Punkten erzielt. Inwieweit ist Aktion 5 von Agent B dafür verantwortlich?

Lernmethoden zAuswendiglernen Wissen wird nur gespeichert und wiederholt zLernen unter Anleitung Wissen wird in eigene Daten eingebettet zLernen durch Erfahrung z.B. durch Reinforcement Learning zLernen durch Analogieschluss bei Lösung neuer Probleme durch ähnliche Probleme zLernen durch Entdeckung Agent stellt Hypothesen auf

UPC-Algorithmus zFür alle möglichen Aktionen in einer Situation hat jeder Agent UPC Werte zUtility (Nützlichkeit) ist der erwartete Wert der Lösung nach Ausführen der Aktion zProbability ist die Wahrscheinlichkeit einer gewünschten Lösung zCost sind die mit einer Aktion verbundenen Kosten zAußerdem noch das Potential, das diese Aktion das Gesamtsystem weiterbringt zAus diesen Werten wird der erwartete Nutzen einer Aktion berechnet, die Bewertungsfunktion kann individuell angepaßt werden

UPC Lernphase Bewertung dieser Aktion zWahrscheinlichkeit P(Aktion) = Summe der Bewertung aller Aktionen zBewertungsfunktion: f (U, P, C, Potential) = U * P + Potential zLernfunktion

LTEAM-Beispiel zExperiment von Nagendar Prasad, Lesser und Lander zdient zum Erlernen von Rollen in einer Umgebung mit mehreren Agenten zGesucht wird hierbei die kostengünstigste Lösung für die Konstruktion eines Dampfkondensators

LTEAM-Aufbau zEs gibt sieben Agenten, jeder Agent ist für einen Teilbereich des Problems wie z.B. den Motor zuständig zvier der Agenten können entscheiden, welche Rolle sie einnehmen (hier entweder eine neue Lösung erstellen, oder eine bestehende verbessern)

Durchführung zZuerst 100 Durchgänge Lernphase zDanach wurden 150 Berechnungen, die von LTEAM und seinem Vorgänger TEAM durchgeführt werden Organisation von TEAM

Ergebnisse der Lernphase Organisation LTEAM nach Lernphase

Ergebnisse LTEAM zResultat: LTEAM erzielte durchschnittlich 3,2% bessere Ergebnisse, da es besser angepaßt ist.

Fazit zEs gibt viele verschiedene Alternativen, lernende Agenten zu konstruieren. Welche dabei gewählt werden sollte, hängt von der Aufgabenstellung ab. zWie das Beispiel LTEAM zeigt, sind durch Lernen optimierte Agenten in der Lage bessere Ergebnisse zu liefern als herkömmliche Systeme. zLernende Agenten sind auf jeden Fall ein spannendes Feld, das sicherlich in naher Zukunft noch weitere Fortschritte machen wird. Es ist also zu befürchten, wir uns damit demnächst noch mehr befassen werden.