Präsentation herunterladen
Die Präsentation wird geladen. Bitte warten
Veröffentlicht von:Klara Kranz Geändert vor über 8 Jahren
1
AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik.uni-hamburg.de Universität Hamburg Fachbereich Informatik Maschinelles Lernen 1/20 Einführung Reinforcement Learning (RL) Künstliche Intelligenz Psychologie Steuerungs- und Regelungstechnik Künstliche Neuronale Netze Neurowissenschaft
2
AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik.uni-hamburg.de Universität Hamburg Fachbereich Informatik Maschinelles Lernen 2/20 Was ist Reinforcement Learning? Lernen aus Interaktion Ziel-orientiertes Lernen Lernen durch, von, und während der Interaktion mit einer externen Umgebung Lernen “was zu tun ist” — wie man Situationen auf Aktionen abbildet — um ein numerisches Reward- Signal zu maximieren
3
AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik.uni-hamburg.de Universität Hamburg Fachbereich Informatik Maschinelles Lernen 3/20 Überwachtes Lernen Überwacht lernendes System Eingaben Ausgaben Trainings Info = gewünschte (Soll-) Ausgabe Fehler = (Soll-Ausgabe – Systemausgabe)
4
AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik.uni-hamburg.de Universität Hamburg Fachbereich Informatik Maschinelles Lernen 4/20 Reinforcement Learning RL System EingabenAusgaben (“Aktionen”) Trainings Info = Bewertungen (“rewards” / “penalties”) Ziel: erreiche soviel Reward wie möglich
5
AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik.uni-hamburg.de Universität Hamburg Fachbereich Informatik Maschinelles Lernen 5/20 Ziel: Möglichst „erfolgreich“ in der Umgebung agieren Entspricht Maximierung der Belohnungssequenz R t Agent Umgebung atat rtrt stst Reinforcement Learning
6
AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik.uni-hamburg.de Universität Hamburg Fachbereich Informatik Maschinelles Lernen 6/20 Key Features von RL Lerner bekommt nicht gesagt welche Aktionen zu wählen sind Trial-and-Error Suche Möglichkeit eines verspäteten (“delayed”) Reward –Aufgeben von kurzfristigem Ertrag um höheren langfristigen Ertrag zu erhalten Das Dilemma “exploration” vs. “exploitation” Betrachtes das komplette Problem eines ziel-orientierten Agenten in Interaktion mit einer unsicheren Umgebung
7
AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik.uni-hamburg.de Universität Hamburg Fachbereich Informatik Maschinelles Lernen 7/20 Der vollständige Agent Zeitlich situiert Beständiges Lernen und Planen Beeinflusst die Umgebung Umgebung ist stochastisch und ungewiss Umgebun g Aktion Zustand Reward Agent
8
AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik.uni-hamburg.de Universität Hamburg Fachbereich Informatik Maschinelles Lernen 8/20 Elemente des RL Policy: was ist zu tun Reward: was ist gut Value: was ist gut, da es Reward vorhersagt Modell: was folgt auf was Policy Reward Value Modell der Umgebung
9
AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik.uni-hamburg.de Universität Hamburg Fachbereich Informatik Maschinelles Lernen 9/20 Ein erweitertes Beispiel: TicTacToe X X XOO X X O X O X O X O X X O X O X O X O X O X O X } x’s Zug } o’s Zug } x’s Zug } o’s Zug... x x x x o x o x o x x x x o o Setzt einen nicht perfekten Gegner voraus: — er/sie macht manchmal Fehler } x’s Zug
10
AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik.uni-hamburg.de Universität Hamburg Fachbereich Informatik Maschinelles Lernen 10/20 Ein RL Ansatz für TicTacToe 1. Erstelle eine Tabelle mit einem Eintrag pro Zustand: Zustand V(s) – geschätzte Wahrscheinlichkeit für den Gewinn.5... 1 gewonnen 0 verloren... 0 unentschieden x x x x o o o o o x x oo oo x x x x o 2. Jetzt spiele viele Spiele. Um einen Zug zu wählen, schaue einen Schritt nach vorne: Momentaner Zustand Verschiedene mögliche nächsten Zustaände * Nehme den nächsten Zustand mit der höchsten geschätzten Gewinnwahrscheinlichkeit — das höchste V(s); ein greedy Zug. Aber in 10% aller Fälle wähle einen zufälligen Zug; ein explorierender Zug.
11
AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik.uni-hamburg.de Universität Hamburg Fachbereich Informatik Maschinelles Lernen 11/20 RLLernregel für TicTacToe Explorierender Zug { Zug des Gegners Unser Zug Zug des Gegners Unser Zug Zug des Gegners Unser Zug { { { { { Startposition a b d e f c e* c* g* g s – Zustand vor dem greedy Zug s – Zustand nach dem greedy Zug Wir inkrementieren jedes V(s) zuV(s) – ein „backup“: kleiner positiver Wert, z.B. 0.1 der „Schrittweitenparameter“
12
AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik.uni-hamburg.de Universität Hamburg Fachbereich Informatik Maschinelles Lernen 12/20 Verbesserung des T.T.T Spielers Beachten von Symmetrien –Darstellung/Generalisierung –Wie kann dies fehlschlagen? Braucht man “Zufallszüge”? Warum? –Braucht man immer die 10%? Kann man von “Zufallszügen” lernen? Kann man offline lernen? –Vor-Lernen durch Spielen gegen sich selbst? –Verwendung von gelernten Modellen des Gegners?...
13
AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik.uni-hamburg.de Universität Hamburg Fachbereich Informatik Maschinelles Lernen 13/20 z.B. Generalisierung Tabelle Generalisierender Funktionsapproximator Zustand V sss...ssss...s 1 2 3 N Trainiere hier
14
AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik.uni-hamburg.de Universität Hamburg Fachbereich Informatik Maschinelles Lernen 14/20 Warum ist TicTacToe einfach? Endliche, kleine Anzahl an Zuständen Es ist immer möglich einen Schritt nach vorne zu gucken (one-step look ahead) Zustände komplett wahrnehmbar...
15
AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik.uni-hamburg.de Universität Hamburg Fachbereich Informatik Maschinelles Lernen 15/20 Einige namhafte RL Anwendungen TD-Gammon: Tesauro weltbestes Backgammon Programm Aufzugssteuerung: Crites & Barto High Performance “down-peak” Aufzugscontroller Lagerverwaltung: Van Roy, Bertsekas, Lee & Tsitsiklis 10–15% Verbesserung gegenüber standard Industriemethoden Dynamische Kanalzuordnung: Singh & Bertsekas, Nie & Haykin High Performance Zuordnung von Funkkanälen zu Mobiltelefonaten
16
AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik.uni-hamburg.de Universität Hamburg Fachbereich Informatik Maschinelles Lernen 16/20 TDGammon Starte mit zufälligem Netzwerk Spiele sehr viele Spiele gegen dich selbst Lerne eine Wertefunktion anhand dieser simulierten Erfahrung Dies produziert wohl den besten Spieler der Welt Aktionsauswahl durch 2–3 Lagensuche Value TD Fehler Tesauro, 1992–1995
17
AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik.uni-hamburg.de Universität Hamburg Fachbereich Informatik Maschinelles Lernen 17/20 Aufzugseinteilung 10 Stockwerke, 4 Kabinen Zustände: Knopfzustände; Positionen, Richtungen, und Bewegungszustände der Kabinen; Personen in Kabinen & in Etagen Aktionen: halte an X, oder fahre nach Y, nächste Etage Rewards: geschätzt, –1 pro Zeitschritt für jede wartende Person Vorsichtige Schätzung: ca. 10 Zustände 22 Crites and Barto, 1996
18
AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik.uni-hamburg.de Universität Hamburg Fachbereich Informatik Maschinelles Lernen 18/20 Performance Vergleich 0 20 40 60 80 Durchschn. Warte- und System- zeiten Lastenverteiler 0 1 2 % Wartezeit >1 Minute Lastenverteiler 0 200 400 600 800 Durchschn. quadrierte Wartezeit Lastenverteiler
19
AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik.uni-hamburg.de Universität Hamburg Fachbereich Informatik Maschinelles Lernen 19/20 RL Geschichte Trial-and-Error learning Temporal-difference learning Optimal control, value functions Thorndike ( ) 1911 Minsky Klopf Barto et al. Secondary reinforcement ( ) Samuel Witten Sutton Hamilton (Physics) 1800s Shannon Bellman/Howard (OR) Werbos Watkins Holland
20
AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler roessler@informatik.uni-hamburg.de Universität Hamburg Fachbereich Informatik Maschinelles Lernen 20/20 MENACE (Michie 1961) “Matchbox Educable Noughts and Crosses Engine”
Ähnliche Präsentationen
© 2024 SlidePlayer.org Inc.
All rights reserved.