AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler Universität Hamburg Fachbereich Informatik.

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik.uni-hamburg.de Universität Hamburg Fachbereich Informatik Maschinelles Lernen 1/20 Einführung Reinforcement Learning (RL) Künstliche Intelligenz Psychologie Steuerungs- und Regelungstechnik Künstliche Neuronale Netze Neurowissenschaft

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik.uni-hamburg.de Universität Hamburg Fachbereich Informatik Maschinelles Lernen 2/20 Was ist Reinforcement Learning? Lernen aus Interaktion Ziel-orientiertes Lernen Lernen durch, von, und während der Interaktion mit einer externen Umgebung Lernen “was zu tun ist” — wie man Situationen auf Aktionen abbildet — um ein numerisches Reward- Signal zu maximieren

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik.uni-hamburg.de Universität Hamburg Fachbereich Informatik Maschinelles Lernen 3/20 Überwachtes Lernen Überwacht lernendes System Eingaben Ausgaben Trainings Info = gewünschte (Soll-) Ausgabe Fehler = (Soll-Ausgabe – Systemausgabe)

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik.uni-hamburg.de Universität Hamburg Fachbereich Informatik Maschinelles Lernen 4/20 Reinforcement Learning RL System EingabenAusgaben (“Aktionen”) Trainings Info = Bewertungen (“rewards” / “penalties”) Ziel: erreiche soviel Reward wie möglich

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik.uni-hamburg.de Universität Hamburg Fachbereich Informatik Maschinelles Lernen 5/20 Ziel: Möglichst „erfolgreich“ in der Umgebung agieren Entspricht Maximierung der Belohnungssequenz R t Agent Umgebung atat rtrt stst Reinforcement Learning

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik.uni-hamburg.de Universität Hamburg Fachbereich Informatik Maschinelles Lernen 6/20 Key Features von RL Lerner bekommt nicht gesagt welche Aktionen zu wählen sind Trial-and-Error Suche Möglichkeit eines verspäteten (“delayed”) Reward –Aufgeben von kurzfristigem Ertrag um höheren langfristigen Ertrag zu erhalten Das Dilemma “exploration” vs. “exploitation” Betrachtes das komplette Problem eines ziel-orientierten Agenten in Interaktion mit einer unsicheren Umgebung

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik.uni-hamburg.de Universität Hamburg Fachbereich Informatik Maschinelles Lernen 7/20 Der vollständige Agent Zeitlich situiert Beständiges Lernen und Planen Beeinflusst die Umgebung Umgebung ist stochastisch und ungewiss Umgebun g Aktion Zustand Reward Agent

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik.uni-hamburg.de Universität Hamburg Fachbereich Informatik Maschinelles Lernen 8/20 Elemente des RL Policy: was ist zu tun Reward: was ist gut Value: was ist gut, da es Reward vorhersagt Modell: was folgt auf was Policy Reward Value Modell der Umgebung

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik.uni-hamburg.de Universität Hamburg Fachbereich Informatik Maschinelles Lernen 9/20 Ein erweitertes Beispiel: TicTacToe X X XOO X X O X O X O X O X X O X O X O X O X O X O X } x’s Zug } o’s Zug } x’s Zug } o’s Zug... x x x x o x o x o x x x x o o Setzt einen nicht perfekten Gegner voraus: — er/sie macht manchmal Fehler } x’s Zug

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik.uni-hamburg.de Universität Hamburg Fachbereich Informatik Maschinelles Lernen 10/20 Ein RL Ansatz für TicTacToe 1. Erstelle eine Tabelle mit einem Eintrag pro Zustand: Zustand V(s) – geschätzte Wahrscheinlichkeit für den Gewinn.5... 1 gewonnen 0 verloren... 0 unentschieden x x x x o o o o o x x oo oo x x x x o 2. Jetzt spiele viele Spiele. Um einen Zug zu wählen, schaue einen Schritt nach vorne: Momentaner Zustand Verschiedene mögliche nächsten Zustaände * Nehme den nächsten Zustand mit der höchsten geschätzten Gewinnwahrscheinlichkeit — das höchste V(s); ein greedy Zug. Aber in 10% aller Fälle wähle einen zufälligen Zug; ein explorierender Zug.

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik.uni-hamburg.de Universität Hamburg Fachbereich Informatik Maschinelles Lernen 11/20 RLLernregel für TicTacToe Explorierender Zug { Zug des Gegners Unser Zug Zug des Gegners Unser Zug Zug des Gegners Unser Zug { { { { { Startposition a b d e f c e* c* g* g s – Zustand vor dem greedy Zug s – Zustand nach dem greedy Zug Wir inkrementieren jedes V(s) zuV(s) – ein „backup“: kleiner positiver Wert, z.B.  0.1 der „Schrittweitenparameter“

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik.uni-hamburg.de Universität Hamburg Fachbereich Informatik Maschinelles Lernen 12/20 Verbesserung des T.T.T Spielers Beachten von Symmetrien –Darstellung/Generalisierung –Wie kann dies fehlschlagen? Braucht man “Zufallszüge”? Warum? –Braucht man immer die 10%? Kann man von “Zufallszügen” lernen? Kann man offline lernen? –Vor-Lernen durch Spielen gegen sich selbst? –Verwendung von gelernten Modellen des Gegners?...

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik.uni-hamburg.de Universität Hamburg Fachbereich Informatik Maschinelles Lernen 13/20 z.B. Generalisierung Tabelle Generalisierender Funktionsapproximator Zustand V sss...ssss...s 1 2 3 N Trainiere hier

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik.uni-hamburg.de Universität Hamburg Fachbereich Informatik Maschinelles Lernen 14/20 Warum ist TicTacToe einfach? Endliche, kleine Anzahl an Zuständen Es ist immer möglich einen Schritt nach vorne zu gucken (one-step look ahead) Zustände komplett wahrnehmbar...

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik.uni-hamburg.de Universität Hamburg Fachbereich Informatik Maschinelles Lernen 15/20 Einige namhafte RL Anwendungen TD-Gammon: Tesauro weltbestes Backgammon Programm Aufzugssteuerung: Crites & Barto High Performance “down-peak” Aufzugscontroller Lagerverwaltung: Van Roy, Bertsekas, Lee & Tsitsiklis 10–15% Verbesserung gegenüber standard Industriemethoden Dynamische Kanalzuordnung: Singh & Bertsekas, Nie & Haykin High Performance Zuordnung von Funkkanälen zu Mobiltelefonaten

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik.uni-hamburg.de Universität Hamburg Fachbereich Informatik Maschinelles Lernen 16/20 TDGammon Starte mit zufälligem Netzwerk Spiele sehr viele Spiele gegen dich selbst Lerne eine Wertefunktion anhand dieser simulierten Erfahrung Dies produziert wohl den besten Spieler der Welt Aktionsauswahl durch 2–3 Lagensuche Value TD Fehler Tesauro, 1992–1995

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik.uni-hamburg.de Universität Hamburg Fachbereich Informatik Maschinelles Lernen 17/20 Aufzugseinteilung 10 Stockwerke, 4 Kabinen Zustände: Knopfzustände; Positionen, Richtungen, und Bewegungszustände der Kabinen; Personen in Kabinen & in Etagen Aktionen: halte an X, oder fahre nach Y, nächste Etage Rewards: geschätzt, –1 pro Zeitschritt für jede wartende Person Vorsichtige Schätzung: ca. 10 Zustände 22 Crites and Barto, 1996

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik.uni-hamburg.de Universität Hamburg Fachbereich Informatik Maschinelles Lernen 18/20 Performance Vergleich 0 20 40 60 80 Durchschn. Warte- und System- zeiten Lastenverteiler 0 1 2 % Wartezeit >1 Minute Lastenverteiler 0 200 400 600 800 Durchschn. quadrierte Wartezeit Lastenverteiler

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik.uni-hamburg.de Universität Hamburg Fachbereich Informatik Maschinelles Lernen 19/20 RL Geschichte Trial-and-Error learning Temporal-difference learning Optimal control, value functions Thorndike (  ) 1911 Minsky Klopf Barto et al. Secondary reinforcement (  ) Samuel Witten Sutton Hamilton (Physics) 1800s Shannon Bellman/Howard (OR) Werbos Watkins Holland

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik.uni-hamburg.de Universität Hamburg Fachbereich Informatik Maschinelles Lernen 20/20 MENACE (Michie 1961) “Matchbox Educable Noughts and Crosses Engine”

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler Universität Hamburg Fachbereich Informatik.

Ähnliche Präsentationen

Präsentation zum Thema: "AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler Universität Hamburg Fachbereich Informatik."— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback

Anmelden

Anmeldung über soziales Netzwerk:

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler Universität Hamburg Fachbereich Informatik.

Ähnliche Präsentationen

Präsentation zum Thema: "AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler Universität Hamburg Fachbereich Informatik."— Präsentation transkript:

Ähnliche Präsentationen

Über Projekt

Feedback