Einführung Künstliche Intelligenz Steuerungs- und Regelungstechnik

Slides:

Advertisements

Ähnliche Präsentationen

Algorithmen und Datenstrukturen

Advertisements

Erweiterte Strategie nach dem Flop Strategie: SnG / Turniere.

Strategie: No-Limit Herzlich willkommen bei PokerStrategy.com, Deiner professionellen Pokerschule. Gerade auf den höheren Limits ist es so, dass du deine.

DFG-Forschungsprojekt

Agent Based Supply Chain Management1 ABSCM-Vorlesung im WS 2001/2002.

Perceptrons and the perceptron learning rule

Intelligente Anwendungen im Internet

Rekursion: Rekurrenz: Algorithmen rufen sich selbst (rekursiv) auf.

Falls Algorithmen sich selbst rekursiv aufrufen, so kann ihr Laufzeitverhalten bzw. ihr Speicherplatzbedarf in der Regel durch eine Rekursionsformel (recurrence,

Eine dynamische Menge, die diese Operationen unterstützt,

Kapitel III: Stochastische Modelle im Januar haben wir behandelt: 12

GIN2 SS05 Prof. Dr. W. Conen, Nullsummen-Spiele - Min-Max-Suche - Alpha-Beta-Pruning (späterer Termin)

TECHNISCHE UNIVERSITÄT DARMSTADT Naive Bayes for Ranking

Seminar „Extrapolationsmethoden für zufällige Felder“

Arbeitsbereich Technische Aspekte Multimodaler Systeme Universität Hamburg Fachbereich Informatik Oberseminar TAMS Grundlagen omnidirektionaler Sichtsysteme.

Vergleichende Untersuchungen zur effizienten VHDL-Simulation

Prinzipal-Agenten Beziehungen

1/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Projektgruppe KIMAS Reinforcement Learning in MAS Marc Pannenberg.

Multivariate Analysemethoden Johannes Gutenberg Universität Mainz

Spielbäume Richard Göbel.

Lernende Agenten Seminar Softwareagenten Wintersemester 2001/2002 Norman Neuhaus.

Kognitive Robotik. – oder – Wie spielt man Roboter-Fußball? Vortrag Allgemeine Psychologie Universität Tübingen 15. Mai 2002 Dirk Neumann

Universität Dortmund, Lehrstuhl Informatik 1 EINI II Einführung in die Informatik für Naturwissenschaftler und Ingenieure.

Entscheidungsunterstützungssysteme IWI Frankfurt 2003

Reinforcement Learning

Technische Informatik I

High Performance = Innovative Computer Systems + Efficient Algorithms Friedhelm Meyer auf der Heide 1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen.

UNIVERSITY OF PADERBORN Projektgruppe KIMAS Projektgruppe KIMAS Organisatorisches Andreas Goebels.

Algorithmen des Internets 2005 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen und Komplexität 1 Klausuraufgaben.

Wismar Business School

Kennlinie Lichtregelung in JavaNNS Version 1.1

Vorlesung Gestaltung von soziotechnischen Informationssystemen - RequirementsEngineering und Contextual Design- Thomas Herrmann, Lehrstuhl Informations-

und relative Häufigkeit Bettina delert, andreas mertke

Handlungsplanung und Allgemeines Spiel „Game Description Language (GDL)“ Peter Kissmann.

Handlungsplanung und Allgemeines Spiel „Ausblick: GDL-II“

Neuronale Netzwerke am Beispiel eines MLP

Machine Learning Was wir alles nicht behandelt haben.

Maschinelles Lernen und automatische Textklassifikation

Datenverteilung in Ad-hoc Netzen 1/24 Adaptive Datenverteilung in mobilen Ad-hoc Netzen unter Verwendung des Area Graph basierten Bewegungsmodells S. Bittner,

Reinforcement Learning 2

Machine Learning & Spiele: Probleme und Ideen von Samuel bis heute Giuliana Sabbatini

Endliche Automaten Informatik JgSt. 13, Abitur 2009

Verwendung von Maschinellem Lernen in einer einfachen Computerspielumgebung Anglberger Harald Brandl Stephan Mai 2003.

Tormann Lorenz Maierhofer Die Test-Umgebung Tor: 5x Roboter-Durchmesser Ball: Wird jeweils in Richtung einer zufälligen Position im Tor geschossen.

Entstehung & Einflüsse Ideen, Wünsche, eigene Überlegungen bisheriges Dateisystem Einschrän- kungen: - technisch - zeitlich - fachlich Literatur, ältere.

Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

Effiziente Algorithmen

Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/

Black Box Algorithmen Hartmut Klauck Universität Frankfurt SS

Hartmut Klauck Universität Frankfurt SS

Quantum Computing Hartmut Klauck Universität Frankfurt WS 05/

Information und Kommunikation Hartmut Klauck Universität Frankfurt SS

Neuronale Netze Nachtrag Perzeptron

Layered Learning Kapitel 4. Voraussetzungen 1. Komplexe Domain realtime noisy limited communications viele bewegt Objekte (Ball, Mitspieler, Gegner) direktes.

Kapitel 19 Kointegration

Hacky‘s Zaubertrick Nr. 3

Analyse von Ablaufdiagrammen

Kathrin Grummich1, Katrin Jensen2 Christoph M Seiler1 Markus K Diener1

Wahrscheinlichkeitsrechnung

Rolf Staguhn, A-Trainer Symposium

Multivariate Statistische Verfahren

Lernmodelle und Experimentelle Untersuchungen

Artificial Intelligience

SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.

Lernen 1. Vorlesung Ralf Der Universität Leipzig Institut für Informatik

AB TAMS Technische Aspekte Multimodaler Systeme Dipl. Inform. Bernd Rössler Universität Hamburg Fachbereich Informatik.

Industrielle Bildverarbeitung

EIN NEUES ENSEMBLE- KLASSIFIKATIONSVERFAHREN Tim Schneider Rotation Forest.

C3: Strategische Interaktion und Anreize für nachhaltiges ökonomisches Handeln Page 1  Ziel: Untersuchung von Anreizproblemen, die nachhaltige Wertschöpfungsnetze.

Präsentation transkript:

Einführung Künstliche Intelligenz Steuerungs- und Regelungstechnik Psychologie Reinforcement Learning (RL) Neurowissenschaft Künstliche Neuronale Netze

Was ist Reinforcement Learning? Lernen aus Interaktion Ziel-orientiertes Lernen Lernen durch, von, und während der Interaktion mit einer externen Umgebung Lernen “was zu tun ist” — wie man Situationen auf Aktionen abbildet — um ein numerisches Reward-Signal zu maximieren

Überwachtes Lernen Fehler = (Soll-Ausgabe – Systemausgabe) Trainings Info = gewünschte (Soll-) Ausgabe Überwacht lernendes System Eingaben Ausgaben Fehler = (Soll-Ausgabe – Systemausgabe)

Reinforcement Learning Trainings Info = Bewertungen (“rewards” / “penalties”) RL System Eingaben Ausgaben (“Aktionen”) Ziel: erreiche soviel Reward wie möglich

Reinforcement Learning Ziel: Möglichst „erfolgreich“ in der Umgebung agieren Entspricht Maximierung der Belohnungssequenz Rt Agent Umgebung at rt st

Key Features von RL Lerner bekommt nicht gesagt welche Aktionen zu wählen sind Trial-and-Error Suche Möglichkeit eines verspäteten (“delayed”) Reward Aufgeben von kurzfristigem Ertrag um höheren langfristigen Ertrag zu erhalten Das Dilemma “exploration” vs. “exploitation” Betrachte das komplette Problem eines ziel-orientierten Agenten in Interaktion mit einer unsicheren Umgebung

Der vollständige Agent Zeitlich situiert Beständiges Lernen und Planen Beeinflusst die Umgebung Umgebung ist stochastisch und ungewiss Umgebung Aktion Zustand Reward Agent

Elemente des RL Policy: was ist zu tun Reward: was ist gut Value Modell der Umgebung Policy: was ist zu tun Reward: was ist gut Value: was ist gut, da es Reward vorhersagt Modell: was folgt auf was

Ein erweitertes Beispiel: TicTacToe X X X X X O X X O X X O X O X O X O X O X O X O O O O X ... } x’s Zug x x x } o’s Zug ... ... ... x o o x o x x } x’s Zug ... ... ... ... ... } o’s Zug Setzt einen nicht perfekten Gegner voraus: — er/sie macht manchmal Fehler } x’s Zug x o

Ein RL Ansatz für TicTacToe 1. Erstelle eine Tabelle mit einem Eintrag pro Zustand: Zustand V(s) – geschätzte Wahrscheinlichkeit für den Gewinn .5 . . . 1 gewonnen 0 verloren 0 unentschieden x o 2. Jetzt spiele viele Spiele. Um einen Zug zu wählen, schaue einen Schritt nach vorne: Momentaner Zustand Verschiedene mögliche nächste Zustände * Nehme den nächsten Zustand mit der höchsten geschätzten Gewinnwahrscheinlichkeit — das höchste V(s); ein greedy Zug. Aber in 10% aller Fälle wähle einen zufälligen Zug; ein explorierender Zug.

RLLernregel für TicTacToe { Zug des Gegners Unser Zug Startposition a b d e f c e* c* g* g Explorierender Zug s – Zustand vor dem greedy Zug ¢ Zustand nach dem greedy Zug Wir inkrementieren jedes V ( s ) zu ¢ – ein „backup“ : kleiner positiver Wert, z.B. a = 0.1 der „Schrittweitenparameter“

Verbesserung des T.T.T Spielers Beachten von Symmetrien Darstellung/Generalisierung Wie kann dies fehlschlagen? Braucht man “Zufallszüge”? Warum? Braucht man immer die 10%? Kann man von “Zufallszügen” lernen? Kann man offline lernen? Vor-Lernen durch Spielen gegen sich selbst? Verwendung von gelernten Modellen des Gegners? . . .

z.B. Generalisierung Tabelle Generalisierender Funktionsapproximator Zustand V Zustand V s . 1 2 3 Trainiere hier N

Warum ist TicTacToe einfach? Endliche, kleine Anzahl an Zuständen Es ist immer möglich einen Schritt nach vorne zu gucken (one-step look ahead) Zustände komplett wahrnehmbar . . .

Einige namhafte RL Anwendungen TD-Gammon: Tesauro weltbestes Backgammon Programm Aufzugssteuerung: Crites & Barto High Performance “down-peak” Aufzugscontroller Lagerverwaltung: Van Roy, Bertsekas, Lee & Tsitsiklis 10–15% Verbesserung gegenüber standard Industriemethoden Dynamische Kanalzuordnung: Singh & Bertsekas, Nie & Haykin High Performance Zuordnung von Funkkanälen zu Mobiltelefonaten

TDGammon Tesauro, 1992–1995 Aktionsauswahl durch 2–3 Lagensuche Value TD Fehler Starte mit zufälligem Netzwerk Spiele sehr viele Spiele gegen dich selbst Lerne eine Wertefunktion anhand dieser simulierten Erfahrung Dies produziert wohl den besten Spieler der Welt

Aufzugseinteilung Crites and Barto, 1996 10 Stockwerke, 4 Kabinen Zustände: Knopfzustände; Positionen, Richtungen, und Bewegungszustände der Kabinen; Personen in Kabinen & in Etagen Aktionen: halte an X, oder fahre nach Y, nächste Etage Rewards: geschätzt, –1 pro Zeitschritt für jede wartende Person 22 Vorsichtige Schätzung: ca. 10 Zustände

Performance Vergleich 80 800 60 600 2 Durchschn. Durchschn. % Wartezeit Warte- 40 quadrierte 400 >1 Minute und Wartezeit 1 System- 20 200 zeiten Lastenverteiler Lastenverteiler Lastenverteiler

RL Geschichte Trial-and-Error learning Temporal-difference learning Optimal control, value functions Hamilton (Physics) 1800s Secondary reinforcement () Thorndike () 1911 Shannon Samuel Bellman/Howard (OR) Minsky Holland Klopf Witten Werbos Barto et al. Sutton Watkins

MENACE (Michie 1961) “Matchbox Educable Noughts and Crosses Engine” x