Machine Learning & Spiele: Probleme und Ideen von Samuel bis heute Giuliana Sabbatini 15.01.01.

Slides:



Advertisements
Ähnliche Präsentationen
Zwischen Kontrolle & Freiheit Felix Stalder HGKZ.
Advertisements

Präsentiert von Torben Pastuch
Algorithmentheorie 08 – Dynamische Programmierung (1)
Schnelle Matrizenoperationen von Christian Büttner
GIN2 SS05 Prof. Dr. W. Conen, Nullsummen-Spiele - Min-Max-Suche - Alpha-Beta-Pruning (späterer Termin)
WS 05/06Automatische Akquisition linguistischen Wissens1 Partielles Wissen erweitern 1.Zusammenhang mit bisherigen Algorithmen 2.Vom offensichtlichen zum.
1/21 UNIVERSITY OF PADERBORN Projektgruppe KIMAS – Reinforcement Learning in MAS Projektgruppe KIMAS Reinforcement Learning in MAS Marc Pannenberg.
Übersicht DIALIGN = DIagonal ALIGNment
Versuch einer Definition Was ist Evaluation!?
Genetische Algorithmen
Genetische Algorithmen
Informierte Suche.
Beispiel: Wasserfallmodell als einfaches Phasenmodell
Spielbäume Richard Göbel.
IIW Erläuterungen zum Masterprogramm. IIW-MS Allgemeine Fachmodule (60) – Studienarbeit + Seminar (18) – Betrieb und Management (6) Nichttechnische Ergänzungsfächer.
Heuristiken Automatic Problem Solving Institut für Informatik
Lernende Agenten Seminar Softwareagenten Wintersemester 2001/2002 Norman Neuhaus.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (11-1 –Selbstanordnende lineare Listen) Prof. Th. Ottmann.
Vorlesung Informatik 2 Algorithmen und Datenstrukturen (27-Selbstanordnende lineare Listen) Prof. Th. Ottmann.
Genetische Algorithmen
1 Analyse von Software-statisch- Darmstadt,den Presentation: Sebastian Schikowski Steve Kenfack.
eXtreme Programming (XP)
High Performance = Innovative Computer Systems + Efficient Algorithms Friedhelm Meyer auf der Heide 1 HEINZ NIXDORF INSTITUT Universität Paderborn Algorithmen.
3. März 2000LS VI Workshop: Kalibrierung und Optimierung1/20 Kalibrierung und Optimierung in simulierten Multiagentensystemen Christoph Oechslein.
Kurzvorstellung der AG Algorithmen und Komplexität MPI Informatik
Teil 5: Kollisionsvermeidung & Wegplanung
Handlungsplanung und Allgemeines Spiel „Ausblick: GDL-II“
Konzeption und Realisierung von DSS
Machine Learning KNN und andere (Kap. 8).
Machine Learning Was wir alles nicht behandelt haben.
Maschinelles Lernen und automatische Textklassifikation
ProExcellence - Module
Computergrafik – Inhalt Achtung! Kapitel ist relevant für CG-2!
Ideen der Informatik Suchen und Sortieren [Ordnung muss sein…]
Best Fit Matching von Punktewolken
Universität Münster, Institut für industriewirtschaftliche Forschung Stefan Kooths Eric Ringhut KI-gestützte Konjunkturprognosen mit GENEFER Adaptive Fuzzy.
DataMining Von Daten zu Informationen und Wissen
Entstehung & Einflüsse Ideen, Wünsche, eigene Überlegungen bisheriges Dateisystem Einschrän- kungen: - technisch - zeitlich - fachlich Literatur, ältere.
Game Programming mit Lua
FEEDBACK FÜR DAS POL- KONZEPT DER GRUPPE ÖKOPARK.
Computergraphische Visualisierungs- verfahren für 3D-Stadtmodelle
Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Softwaretechnologie II (Teil I): Simulation und 3D Programmierung Prof.
Problem Solving Ein Problem erkennen und lösen
Allgemeines zu Datenbanken
CEF 2001, New Haven Genetic Neural Fuzzy Explorer GENEFER Konzeption, Technologien und Einsatzmöglichkeiten Eric Ringhut Muenster Institute for Computational.
SOTA Andrej Gisbrecht
Sie spielen gerne Viergewinnt ? - aber haben keine Gegner mehr ? Wir haben die Lösung !!!
Eike Schallehn, Martin Endig
Lernmodelle und Experimentelle Untersuchungen
Möglichkeiten der Visualisierung
Was spricht für EMC für SQL?
Neuausrichtung der Imaging/Packaging Umgebung im Zuge ZeroBluePorts SIS M GIO DTB ITO eBranch/SBC Production.
Artificial Intelligience
Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Softwaretechnologie II (Teil I): Simulation und 3D Programmierung Prof.
Multimedia-Didaktik Erich Neuwirth Universität Wien
Institut für Kartographie und Geoinformation Prof. Dr. Lutz Plümer Diskrete Mathematik II Foliendesign: Jörg Steinrücken & Tobias Kahn Vorlesung
Ausbildungsrede Spreeredner Berlin 25. Februar 2010 Wie man einen Bewertungswettbewerb gewinnen kann.
SS 2009Maschinelles Lernen und Neural Computation 133 Kapitel 7: Ensemble Methoden.
Mind - Maps (1) Mind Maps Spielablauf mittels eines Mind Map erklären
Algorithmen der Objekterkennung
Georg Spitaler PS Interpretative Zugänge zu Popularkultur WS 2004/05
Institut für Informationssysteme Technische Universität Braunschweig Institut für Informationssysteme Technische Universität Braunschweig Verdrängung von.
Game Loop & Update Method Robert Nystrom – Game Programming Patterns Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung SS.
LocoMotif Professor Dr. Katharina Zweig Wolfgang Schlauch Mareike Bockholt TU Kaiserslautern.
EINFÜHRUNG © Lenhardt, 2011 SUCHE IM NETZ PROBLEME ERFOLGE FRAGEN ERGEBNIS RESÜMEE.
Die klassischen Methoden der historisch-vergleichenden Forschung Universität Zürich Soziologisches Institut Seminar: Methoden des internationalen Vergleichs.
PCA Principal Component Analysis. Gliederung PCA – Warum eigentlich? PCA – Was ist zu tun? Was passiert eigentlich? Anwendungen Zusammenfassung.
Prototyping Berlin · Seite 2 Prototyping: Was und wozu Die Zukunft ausprobieren und erfahren durch „Machen“. Einen Mikrokosmos kreieren.
Fachrichtung Theoretische Informatik
KI in Computerspielen Tactical and Strategic AI
 Präsentation transkript:

Machine Learning & Spiele: Probleme und Ideen von Samuel bis heute Giuliana Sabbatini

Überblick 1.Warum Spiele für ML&KI 2.Samuels Dame-Spieler Grundidee & Techniken 3.ML & Spiele nach Samuel Problemstellungen Methoden und deren Anwendung 4.Offene Punkte

: Samuels Dame-Spieler Samuels Projekt: write a program to play checkers […], challenge the world champion and beat him Spiele als optimales Domain, um die Möglichkeiten von ML&KI zu beweisen und zu entwickeln Vorfahren von ML Techniken, die nur Jahre bis Jahrzehnte später formalisiert wurden (zB Strategie zur Suche im Spielbaum)

Warum Spiele? Das Problem soll einfach genug und gleichzeitig komplex genug sein… Keine deterministische Lösungstrategie Endziel muß vorhanden und klar definiert sein Zwischenziele sollten vorhanden und definierbar sein… Regeln der Umgebung sollen genau und algorithmisch formulierbar sein

Samuels Dame-Spieler/1 Zur Auswahl eines Zuges: Bewertungsfunktion (Polynom) + Suchstrategie (Alpha-Beta) Quiescence-Suche: instabile Stellungen erkennen und Tiefe der Suche adaptieren Feature Subset Selection: automatische Auswahl aus einem vordefinierten Pool von Bewertungskriterien Unterschiedliche Bewertungsfunktionen für unterschiedliche Spielphasen

Samuels Dame-Spieler/2 Optimierung der Bewertung: Rote Learning: oft auftretende Spielstellungen speichern, damit mehr Zeit zur Verfügung für tiefere Suche Reinforcement Learning: Bewertung der aktuellen Spielstellung nach einer Quiescence- Suche mit Bewertung derselben Stellung nach einer Suche über mehrere Züge vergleichen Self-Play: Dynamische vs stabile Version Comparison Training auf Basis von Meisterschaft-Spielen

Nach Samuel: Schwerpunkte Verbesserte Methoden für Book Learning Learning von Strategien zur Kontrolle der Suchprozedur (bzw deren Parameter) Methoden zur Optimierung der Bewertungsfunktion Auswahl einer Training Strategie

Nach Samuel: Techniken und Methoden/1 Book Learning: –Vorgespeicherte Züge für Anfangs- und Endphase des Spiels (Opening Book) + automatische Erweiterung der vorhandenen Sammlung –Effiziente Speicherung von Spielstellungen, schnelle Suche der Einträge, Forgetting-Strategie, automatisch Generalisierung von Konzepten Kontrolle der Suchprozedur: –Automatische Optimierung der Suchparameter für bessere bzw schnellere Suche (zB Quiescence-Kriterien, Reihenfolge der Bewertung)

Nach Samuel: Techniken und Methoden/2 Optimierung der Bewertungsfunktion: –Supervised Learning: Absolute Bewertungen von Spielstellungen sind vorhanden Problem: Auswahl und Bewertung solcher Spielstellungen + Overfitting! –Comparison Training: Relative Bewertungen für Paare von Zügen sind vorhanden Problem: Effizienz und Konsistenz! –Reinforcement Learning: Feedback über die Qualität jedes Zuges bzw jedes Matchs Problem: verspätetes oder ungenaues Feedback! –Temporal-Difference Learning und genetische Algorithmen (Spezialfälle von Reinforcement): Feedback wird verteilt auf alle entsprechende Züge Problem: Auswahl einer Verteilungsstrategie!

Nach Samuel: Techniken und Methoden/3 Training-Strategie: –Self-Play (besser geeignet für nichtdeterministische Spiele) Nachteile: Lokale Minima – Größe des Spielraums –Dynamische vs stabile Version Vorteile: Lokale Minima sind einfach zu vermeiden – Vorhandene Kenntnisse werden genauer geprueft –Computer vs Human –PCs Tourniere –Web Server Vorteile: Viele unterschiedlichen Gegner – Gegner derselben Kategorie - Fortschritt

Offene Punkte Automatische Generierung von interpretierbaren Bewertungskriterien (…neuronale Netze und genetische Algorithmen…) Zwischen- vs Endziele (zB Schichte) Verbesserte Analyse der Spielstellung (zB Erkennung von Muster und von relevanten Teilen des Spielbretts) Opponent-Modellierung (Schwäche ausnutzen, Bewertung modifizieren) Lineare vs. nichtlineare Bewertungsfunktionen: Effizienz, Konvergenz, lokales Overfitting, Komplexität der Konzepte Stabilität, Konvergenz und Konsistenz der Performance Problem der Wissensrepräsentation Learning von Spielstrategien (nicht nur Spielstellungen klassifizieren)

Literaturhinweise A.Samuel (1959) Some Studies in Machine Learning Using the Game of Checkers, IBM Journal (1963 in Feigenbaum & Feldman Computers and Thought) A.Samuel (1967) Some Studies in Machine Learning Using the Game of Checkers. II-Recent Progress, IBM Journal A.Samuel (1960) Programming Computers to Play Games, Advances in Computers J.Fürnkranz (2000) Machine Learning in Games: A Survey, OEFAI TR J.Fürnkranz ( ) Bibliography on Machine Learning in Strategic Game Playing ( J.Schaeffer (1999) The Role of Games in Understanding Computational Intelligence, IEEE Intelligent Systems J.Pearl Heuristics