AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler Universität Hamburg Fachbereich Informatik.

Slides:



Advertisements
Ähnliche Präsentationen
Algorithmen und Datenstrukturen
Advertisements

DFG-Forschungsprojekt
Agent Based Supply Chain Management1 ABSCM-Vorlesung im WS 2001/2002.
Perceptrons and the perceptron learning rule
Eine dynamische Menge, die diese Operationen unterstützt,
Kapitel III: Stochastische Modelle im Januar haben wir behandelt: 12
GIN2 SS05 Prof. Dr. W. Conen, Nullsummen-Spiele - Min-Max-Suche - Alpha-Beta-Pruning (späterer Termin)
Proof-Planning. Übersicht Einleitung Proof-Planning Bridge-Taktiken Repräsentation des Gegenspiels Planungsalgorithmus Suchen mit Histories.
TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking
Einführung in NeuroFuzzy Technologien
Arbeitsbereich Technische Aspekte Multimodaler Systeme Universität Hamburg Fachbereich Informatik Oberseminar TAMS Grundlagen omnidirektionaler Sichtsysteme.
Vergleichende Untersuchungen zur effizienten VHDL-Simulation
Einführung Künstliche Intelligenz Steuerungs- und Regelungstechnik
Prinzipal-Agenten Beziehungen
1/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Projektgruppe KIMAS Reinforcement Learning in MAS Marc Pannenberg.
Multivariate Analysemethoden Johannes Gutenberg Universität Mainz
Spielbäume Richard Göbel.
Lernende Agenten Seminar Softwareagenten Wintersemester 2001/2002 Norman Neuhaus.
Entscheidungsunterstützungssysteme IWI Frankfurt 2003
Reinforcement Learning
UNIVERSITY OF PADERBORN Projektgruppe KIMAS Projektgruppe KIMAS Organisatorisches Andreas Goebels.
Algorithmen des Internets 2005 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität 1 Klausuraufgaben.
4. Markov-Ketten 4.1. Übergangsmatrizen
Wismar Business School
und relative Häufigkeit Bettina delert, andreas mertke
Handlungsplanung und Allgemeines Spiel „Game Description Language (GDL)“ Peter Kissmann.
Handlungsplanung und Allgemeines Spiel „Ausblick: GDL-II“
Neuronale Netzwerke am Beispiel eines MLP
Machine Learning Was wir alles nicht behandelt haben.
Maschinelles Lernen und automatische Textklassifikation
Reinforcement Learning 2
Wie erstelle ich einen Spielplan von unserer Homepage? Der Schlüssel liegt hinter dem Button Spiele, Ergebnisse Hier alle Spiele wählen. Hier das gewünschte.
Machine Learning & Spiele: Probleme und Ideen von Samuel bis heute Giuliana Sabbatini
Endliche Automaten Informatik JgSt. 13, Abitur 2009
Verwendung von Maschinellem Lernen in einer einfachen Computerspielumgebung Anglberger Harald Brandl Stephan Mai 2003.
Tormann Lorenz Maierhofer Die Test-Umgebung Tor: 5x Roboter-Durchmesser Ball: Wird jeweils in Richtung einer zufälligen Position im Tor geschossen.
Computational Thinking Online Algorithmen [Was ist es wert, die Zukunft zu kennen?] Kurt Mehlhorn Konstantinos Panagiotou.
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS
Effiziente Algorithmen Hartmut Klauck Universität Frankfurt SS
Hartmut Klauck Universität Frankfurt SS
Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/
Information und Kommunikation Hartmut Klauck Universität Frankfurt SS
Neuronale Netze Nachtrag Perzeptron
ES IST GENAU 21:36 Mit jedem Mausklick oder Leertaste folgt das nächste Bild und Gedanke. Es mögen Sekunden vergehen, vielleicht Minuten, Die Wahl ist.
Spieltheorie Mária Némethy.
Wahrscheinlichkeitsrechnung
Modellbildung und Simulation
1 SUPERVISOR SCHOOL WIR VERWENDEN DAS "BRÜCKEN-MODELL" FÜR DAS COACHING Kunden Interessenten & existierende Team-Partner DIE BRÜCKE FREUDE SCHMERZ.
Multivariate Statistische Verfahren
Technische Informatik II
Management, Führung & Kommunikation
Gesund und aktiv leben AKTIVER LEBENSSTIL
Lernmodelle und Experimentelle Untersuchungen
Artificial Intelligience
2. Einführung der Lernstrategie 3. Anwendung der Lernstrategie
Vom Neuron bis zur Boltzmann Maschine Miguel Domingo & Marco Block Seminar : Maschinelles Lernen und Markov KettenSommersemester 2002.
AB TAMS Technische Aspekte Multimodaler Systeme Daniel Westhoff Universität Hamburg Fachbereich Informatik Proseminar:
SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.
Lernen 1. Vorlesung Ralf Der Universität Leipzig Institut für Informatik
Industrielle Bildverarbeitung
Die KATA im KLASSENZIMMER
EIN NEUES ENSEMBLE- KLASSIFIKATIONSVERFAHREN Tim Schneider Rotation Forest.
Übung „Aquarium“. Ablauf Übung Aquarium Sie finden sich in 6 Gruppen zusammen pro Gruppe wird eine freiwillige Person ausgewählt die freiwillige Person.
C3: Strategische Interaktion und Anreize für nachhaltiges ökonomisches Handeln Page 1  Ziel: Untersuchung von Anreizproblemen, die nachhaltige Wertschöpfungsnetze.
Prognose von Zeitreihen Hans Nübel Hans Nübel Prognose von Zeitreihen Aufbau 1.Motivation 2.Holt-Winters-Verfahren 3.Prognose.
 Präsentation transkript:

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler Universität Hamburg Fachbereich Informatik Maschinelles Lernen 1/20 Einführung Reinforcement Learning (RL) Künstliche Intelligenz Psychologie Steuerungs- und Regelungstechnik Künstliche Neuronale Netze Neurowissenschaft

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler Universität Hamburg Fachbereich Informatik Maschinelles Lernen 2/20 Was ist Reinforcement Learning? Lernen aus Interaktion Ziel-orientiertes Lernen Lernen durch, von, und während der Interaktion mit einer externen Umgebung Lernen “was zu tun ist” — wie man Situationen auf Aktionen abbildet — um ein numerisches Reward- Signal zu maximieren

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler Universität Hamburg Fachbereich Informatik Maschinelles Lernen 3/20 Überwachtes Lernen Überwacht lernendes System Eingaben Ausgaben Trainings Info = gewünschte (Soll-) Ausgabe Fehler = (Soll-Ausgabe – Systemausgabe)

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler Universität Hamburg Fachbereich Informatik Maschinelles Lernen 4/20 Reinforcement Learning RL System EingabenAusgaben (“Aktionen”) Trainings Info = Bewertungen (“rewards” / “penalties”) Ziel: erreiche soviel Reward wie möglich

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler Universität Hamburg Fachbereich Informatik Maschinelles Lernen 5/20 Ziel: Möglichst „erfolgreich“ in der Umgebung agieren Entspricht Maximierung der Belohnungssequenz R t Agent Umgebung atat rtrt stst Reinforcement Learning

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler Universität Hamburg Fachbereich Informatik Maschinelles Lernen 6/20 Key Features von RL Lerner bekommt nicht gesagt welche Aktionen zu wählen sind Trial-and-Error Suche Möglichkeit eines verspäteten (“delayed”) Reward –Aufgeben von kurzfristigem Ertrag um höheren langfristigen Ertrag zu erhalten Das Dilemma “exploration” vs. “exploitation” Betrachtes das komplette Problem eines ziel-orientierten Agenten in Interaktion mit einer unsicheren Umgebung

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler Universität Hamburg Fachbereich Informatik Maschinelles Lernen 7/20 Der vollständige Agent Zeitlich situiert Beständiges Lernen und Planen Beeinflusst die Umgebung Umgebung ist stochastisch und ungewiss Umgebun g Aktion Zustand Reward Agent

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler Universität Hamburg Fachbereich Informatik Maschinelles Lernen 8/20 Elemente des RL Policy: was ist zu tun Reward: was ist gut Value: was ist gut, da es Reward vorhersagt Modell: was folgt auf was Policy Reward Value Modell der Umgebung

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler Universität Hamburg Fachbereich Informatik Maschinelles Lernen 9/20 Ein erweitertes Beispiel: Tic­Tac­Toe X X XOO X X O X O X O X O X X O X O X O X O X O X O X } x’s Zug } o’s Zug } x’s Zug } o’s Zug... x x x x o x o x o x x x x o o Setzt einen nicht perfekten Gegner voraus: — er/sie macht manchmal Fehler } x’s Zug

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler Universität Hamburg Fachbereich Informatik Maschinelles Lernen 10/20 Ein RL Ansatz für Tic­Tac­Toe 1. Erstelle eine Tabelle mit einem Eintrag pro Zustand: Zustand V(s) – geschätzte Wahrscheinlichkeit für den Gewinn gewonnen 0 verloren... 0 unentschieden x x x x o o o o o x x oo oo x x x x o 2. Jetzt spiele viele Spiele. Um einen Zug zu wählen, schaue einen Schritt nach vorne: Momentaner Zustand Verschiedene mögliche nächsten Zustaände * Nehme den nächsten Zustand mit der höchsten geschätzten Gewinnwahrscheinlichkeit — das höchste V(s); ein greedy Zug. Aber in 10% aller Fälle wähle einen zufälligen Zug; ein explorierender Zug.

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler Universität Hamburg Fachbereich Informatik Maschinelles Lernen 11/20 RL­Lernregel für Tic­Tac­Toe Explorierender Zug { Zug des Gegners Unser Zug Zug des Gegners Unser Zug Zug des Gegners Unser Zug { { { { { Startposition a b d e f c e* c* g* g s – Zustand vor dem greedy Zug s – Zustand nach dem greedy Zug Wir inkrementieren jedes V(s) zuV(s) – ein „backup“: kleiner positiver Wert, z.B.  0.1 der „Schrittweitenparameter“

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler Universität Hamburg Fachbereich Informatik Maschinelles Lernen 12/20 Verbesserung des T.T.T Spielers Beachten von Symmetrien –Darstellung/Generalisierung –Wie kann dies fehlschlagen? Braucht man “Zufallszüge”? Warum? –Braucht man immer die 10%? Kann man von “Zufallszügen” lernen? Kann man offline lernen? –Vor-Lernen durch Spielen gegen sich selbst? –Verwendung von gelernten Modellen des Gegners?...

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler Universität Hamburg Fachbereich Informatik Maschinelles Lernen 13/20 z.B. Generalisierung Tabelle Generalisierender Funktionsapproximator Zustand V sss...ssss...s N Trainiere hier

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler Universität Hamburg Fachbereich Informatik Maschinelles Lernen 14/20 Warum ist Tic­Tac­Toe einfach? Endliche, kleine Anzahl an Zuständen Es ist immer möglich einen Schritt nach vorne zu gucken (one-step look ahead) Zustände komplett wahrnehmbar...

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler Universität Hamburg Fachbereich Informatik Maschinelles Lernen 15/20 Einige namhafte RL Anwendungen TD-Gammon: Tesauro weltbestes Backgammon Programm Aufzugssteuerung: Crites & Barto High Performance “down-peak” Aufzugscontroller Lagerverwaltung: Van Roy, Bertsekas, Lee & Tsitsiklis 10–15% Verbesserung gegenüber standard Industriemethoden Dynamische Kanalzuordnung: Singh & Bertsekas, Nie & Haykin High Performance Zuordnung von Funkkanälen zu Mobiltelefonaten

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler Universität Hamburg Fachbereich Informatik Maschinelles Lernen 16/20 TD­Gammon Starte mit zufälligem Netzwerk Spiele sehr viele Spiele gegen dich selbst Lerne eine Wertefunktion anhand dieser simulierten Erfahrung Dies produziert wohl den besten Spieler der Welt Aktionsauswahl durch 2–3 Lagensuche Value TD Fehler Tesauro, 1992–1995

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler Universität Hamburg Fachbereich Informatik Maschinelles Lernen 17/20 Aufzugseinteilung 10 Stockwerke, 4 Kabinen Zustände: Knopfzustände; Positionen, Richtungen, und Bewegungszustände der Kabinen; Personen in Kabinen & in Etagen Aktionen: halte an X, oder fahre nach Y, nächste Etage Rewards: geschätzt, –1 pro Zeitschritt für jede wartende Person Vorsichtige Schätzung: ca. 10 Zustände 22 Crites and Barto, 1996

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler Universität Hamburg Fachbereich Informatik Maschinelles Lernen 18/20 Performance Vergleich Durchschn. Warte- und System- zeiten Lastenverteiler % Wartezeit >1 Minute Lastenverteiler Durchschn. quadrierte Wartezeit Lastenverteiler

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler Universität Hamburg Fachbereich Informatik Maschinelles Lernen 19/20 RL Geschichte Trial-and-Error learning Temporal-difference learning Optimal control, value functions Thorndike (  ) 1911 Minsky Klopf Barto et al. Secondary reinforcement (  ) Samuel Witten Sutton Hamilton (Physics) 1800s Shannon Bellman/Howard (OR) Werbos Watkins Holland

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler Universität Hamburg Fachbereich Informatik Maschinelles Lernen 20/20 MENACE (Michie 1961) “Matchbox Educable Noughts and Crosses Engine”