Präsentation von Daniel Schumann

Slides:



Advertisements
Ähnliche Präsentationen
Heads-up am Flop OOP - C/C Flop ohne Initiative - mit Showdownvalue Strategie: Fixed Limit.
Advertisements

Grundlagen des Spiels vor dem Flop Strategie: No Limit.
Erweiterte Strategie nach dem Flop Strategie: SnG / Turniere.
Standardspielzüge gegen einen Gegner Strategie: Fixed Limit.
Strategie: No-Limit Herzlich willkommen bei PokerStrategy.com, Deiner professionellen Pokerschule. Gerade auf den höheren Limits ist es so, dass du deine.
Wie spielst du schwache & starke Draws? Strategie: No Limit.
Shortstack-Strategie: Draws im Freeplay Strategie: No Limit.
10 typische Anfängerfehler Strategie: Fixed Limit.
Shortstackstrategie: Odds & Outs Strategie: No Limit.
Postflop: Semibluff und Pure Bluff Strategie: Fixed Limit.
Looses und tightes Spiel Strategie: Fixed Limit. loose Spielt viele Hände Spielt nach dem Flop auch marginale Hände aggressiv weiter tight Spielt eher.
Strategie: Fixed Limit
Proof-Planning. Übersicht Einleitung Proof-Planning Bridge-Taktiken Repräsentation des Gegenspiels Planungsalgorithmus Suchen mit Histories.
Zugehörigkeitsfunktion (Wahrheitsfunktion) m
Ich habe nie gelernt, Aufgaben zu lösen
Shortstackstrategie – Wie helfen dir Elephant-Stats? Strategie: No-Limit.
Strategie: No-Limit Mathematik des Pokerns – Outs & Odds
Handlungsplanung und Allgemeines Spiel „Ausblick: GDL-II“
Nach dem Flop – Niemand hat vor dem Flop erhöht Strategie: No-Limit.
Nach dem Flop – Ein Gegner hat vor dem Flop erhöht Strategie: No-Limit.
Strategie: Allgemeine Konzepte
Verfasst von:OnkelHotte Erstellt am: „Diese verfluchten Donkbets …“ Fixed Limit Seminarvideo mit Konzepten zur Spielweise gegen Donkbets.
Programmiersprachen II Fortsetzung Datenstrukturen Balancierte Bäume 3 Prof. Dr. Reiner Güttler Fachbereich GIS HTW.
Ich schaff´s! Kinder motivieren und stärken Realschule am Karlsberg Crailsheim Ein Vortrag von Holger Waidelich – Diplomsozialpädagoge (BA)
Offene und geschlossene Aufgaben Seminar zum semesterbegleitenden fachdidaktischen Praktikum Oliver Hey,
Mitgliederzutrittsbereich (Member Access) Registrierung & Anmeldung (Login) Um bei dieser Präsentation die Diskussionspunkte, die aufgebracht werden, festzuhalten,
Grundlage Jeder Spieler erhält 2 Karten Im Laufe der Runde werden noch 5 Karten gezeigt. Aus den 7 Karten kann jeder Spieler 5 Karten auswählen und damit.
ALLGEMEIN  variante von Kartenspiel Poker  Häufigstes Pokerspiel in Spielbanken  Bei Pokerturniere gespielt  Ziel:  höchste Pokerkombination  Geschickte.
Sähe Ihre Welt nicht ganz anders aus, wenn wir Sie mit allen nötigen Insider- Infos versorgen würden? Geheime Tricks mit denen Sie selbst gleich morgen.
Kapitel 2: Testtheorie / Testmodelle  Multivariate (p-variate) Normalverteil- ung :  Mittelwertstruktur: p Mittelwerte  Kovarianzstruktur: p·(p+1)/2.
1 Quantencomputer Vom Mythos zur Realität Lehnen Sie sich zurück und geniessen Sie, was ich zu sagen habe und fragen Sie nicht nach dem Wieso, denn sonst.
Beschleunigungsmessungen beim Fahrradfahren mit GPS Jasmin Kupisch Dennis Loosen.
Energy as a driver in open-ended evolution Von Tim Hoverd & Susan Stepney Präsentation von Sebastian Schrage.
1. 2 Das Grundproblem der Beurteilenden Statistik ● Wir haben uns bisher mit Problemen der Wahrscheinlichkeitsrechnung beschäftigt: – Die Wahrscheinlichkeit.
Sport.
Projekt Activtiy Tracker
Inklusionsbarometer 2016 Zahlen & Fakten (beruhend auf dem vierten Inklusionsbarometer der Aktion Mensch (Komplette Studie:
Titel der Diplomarbeit
Das Problem des Handlungsreisenden
Präsentation "Geschäftsplan"
Ein neues Wahlsystem Warum ? Achim Stahl Bad Honnef,
HEURISTIKEN.
KI in Computerspielen Tactical and Strategic AI
Wisdom of Crowds und Spiele
MLDM Übung 6 - Evaluation
Politikzyklus ist ein politikwissenschaftliches Modell, das den
Titel: Quelle: Übungsart: Titel: Quelle: Silbenübung Nina lernt lesen
Die 7 Wege zur Effektivität
So gelingt der digitale Wandel in einem Landwirtschaftsbetrieb
Siegbert Rudolph auf Basis einer Ausarbeitung von Annemarie Lösch
Anpassen von Microsoft SharePoint Onlinewebsite
Biraveenmaks Ponnu Benjamin Zumbrunn
Routing … … die Suche nach dem Weg..
Routing … … die Suche nach dem Weg..
Titel: Quelle: Übungsart: Titel: Quelle: Uhr Die Uhr lesen lernen
Mensch-Maschine-Interaktion
Kapitel 2: Testtheorie / Testmodelle
PPS Vom Spiel zur Wissenschaft
Mag. (FH) Patrick Fritz Methode KAIZEN erstellt von
Abstandsbestimmungen
1. Die rekursive Datenstruktur Liste 1
Präsentation von Darleen und Michèle
Erwartungswerte berechnen
Pflichtteil 2016 Aufgabe 6: Gegeben ist die Gerade
CSG Methodenkompetenz:
Wissenschaftliches Projekt
Nutzung und Modellierung von Datenbanken
Abiturprüfung Mathematik 2015 Baden-Württemberg Allgemeinbildende Gymnasien Wahlteil Analytische Geometrie / Stochastik Aufgabe B 2.1 und B Lösungen.
- moodle – a internet based learning platform
Wir sind ‚One PPG‘ Unser Auftrag We protect and beautify the world
 Präsentation transkript:

Präsentation von Daniel Schumann Opponent Modeling in Poker: Learning and Acting in a Hostile and Uncertain Environment Präsentation von Daniel Schumann

Opponent Modeling Experiments SBS Revisited Inhalt Opponent Modeling Schwierigkeiten Ansätze/Methoden Experiments Ergebnisse in Praxis und Simulation Simulation Based Betting Strategies (SBS) Revisited Probleme Lösungen 15.11.2018 Opponent Modeling Experiments SBS Revisited

<Opponent Modeling> Experiments SBS Revisited Motivation Opponent Modeling (OM) in Perfect Information Games (Schach, etc.) bringt keinen nennenswerten Vorteil in Poker sehr wichtig, da wenige Informationen bekannt sind häufig bluffender Gegner  öfter callen selten bluffender Gegner  weniger callen steigert eigenen Gewinn 15.11.2018 <Opponent Modeling> Experiments SBS Revisited

<Opponent Modeling> Experiments SBS Revisited Verwendung des OM Rückschluss auf Hand-Stärke des Gegners basierend auf dessen Aktionen Predictor Wahrscheinlichkeitsverteilung für nächste Aktionen des Gegners Tripel (Pr(fold), Pr(call), Pr(raise)) 15.11.2018 <Opponent Modeling> Experiments SBS Revisited

<Opponent Modeling> Experiments SBS Revisited Schwierigkeiten (1) Unsicherheit viele Karten viele Möglichkeiten Wiederholungen erst nach ettlichen Spielen Fehlende Informationen Karten des Gegners unbekannt Showdown nur selten dann: vollständige Verifikation des OM möglich *nicht zu lange aufhalten* 15.11.2018 <Opponent Modeling> Experiments SBS Revisited

<Opponent Modeling> Experiments SBS Revisited Schwierigkeiten (2) Unbekannte Dimensionen was beeinflusst den Gegner Position? Möglichkeit auf Herz-Flush? Wochentag? … Intuition Menschen lernen schnell auch aus wenigen Beobachtungen Maschinen brauchen viele Runden für OM *nicht zu lange aufhalten* 15.11.2018 <Opponent Modeling> Experiments SBS Revisited

<Opponent Modeling> Experiments SBS Revisited Schwierigkeiten (3) Mehrere Ebenen Gegner modellieren uns ebenfalls! Modellierung der gegnerischen OM … verschiedene Gegner  verschiedene Modelle Bewegende Ziele Gegner können ihre Strategie spontan ändern bisheriges Modell veraltet *nicht zu lange aufhalten* 15.11.2018 <Opponent Modeling> Experiments SBS Revisited

Ansatz: Experten System Theorie: Gegner spielt so wie wir Modellierung z.B. durch unsere eigene Strategie als Modell für den Gegner oder Menge von Regeln nicht sehr effektiv aber gutes Modell für den Anfang bei neuen Gegnern [Zeit < 5 Min] 15.11.2018 <Opponent Modeling> Experiments SBS Revisited

<Opponent Modeling> Experiments SBS Revisited Ansatz: Statistik Theorie: Gegner spielt so weiter wie bisher Modellierung aufgrund beobachteter Aktionen Beispiel Beobachtung: Gegner bietet zu 40% nach dem Flop Schlussfolgerung: Gegner bietet mit den besten 40% seiner Karten Dimensionen (z.B.) betting round: pre-flop, flop, turn, river betting level: null, eins, mehr als ein Bet/Call 15.11.2018 <Opponent Modeling> Experiments SBS Revisited

Opponent Modeling Experiments SBS Revisited Ansatz: Statistik Pr(Fold | X & Y) analog Tabellen für Pr(Call | X & Y) Pr(Raise | X & Y) betting round X Y pre-Flop Flop Turn River Null 0% 1% Eins 15% 13% 10% 5% ≥Zwei 20% 18% 40% betting level (Prozentabgaben dienen nur zur Veranschaulichung) *1 Animation überspringen* Tabelle enthält die Wahr-scheinlichkeiten, dass der Gegner die gefragte Aktion unter den gegebenen Umständen macht 15.11.2018 Opponent Modeling Experiments SBS Revisited

Ansatz: Neuronales Netz Vorteile allgemein einfach zu erstellen einfach zu trainieren Nachteile nicht viel besser als Experten Systeme erlerntes Wissen nicht extrahierbar sehr Erfolgreich in Backgammon (TD-Gammon) Lernalgortihmus: Backpropagation 15.11.2018 <Opponent Modeling> Experiments SBS Revisited

Ansatz: Neuronales Netz Eingaben (18 Werte) Knotenfarbe weiß: Aktivierungsgrad = 0 schwarz: Aktivierungsgrad = 1 Kantendicke dünn: geringes Gewicht dick: hohes Gewicht Kantenfarbe grau: negatives Gewicht schwarz: positives Gewicht 15.11.2018 Opponent Modeling Experiments SBS Revisited

Ansatz: Entscheidungsbaum A decision tree is navigated by asking a question at each node, and depending on the answer, traversing down a particular branch, towards a leaf node. At a leaf, there is a count of frequencies of choices in the training set that would fall under that leaf node. [...] A typical method is to start with a single node, then split the node on one of the features such that the feature used results in a split that maximizes the information gain. *überspringen*  auf der nächsten Folie erläutern 15.11.2018 <Opponent Modeling> Experiments SBS Revisited

Ansatz: Entscheidungsbaum Teil eines Entscheidungsbaums mit Wahr- scheinlichkeitsverteilungen an den Blättern 15.11.2018 Opponent Modeling Experiments SBS Revisited

Ansatz: Mehrfach-Predictor Theorie: Mehrheitsentscheidung mehrere Predictors gewichtet mit ihrer Genauigkeit aus Konfusionsmatrix Beispiel Vorhersage: pi = (0.1,0.85,0.05) Genauigkeit: ai ≈ (0.88,0.76,0.91) Gewichtete Verteilung: wi = pi * ai ≈ (0.09,0.64,0.05) norm.  (0.12,0.82,0.06) Gesamt: p = Σ wi Vorhersage fold call raise % 11.2 1.6 0.0 12.8 25.6 8.0 33.6 3.2 48.8 53.6 30.4 56.8 85.6 Wirklichkeit *2 Animationen* Genauigkeit: Prozent der richtigen Vorhersagen für eine Beobachtung 11.2 / 12.8 = 0.88 25.6 / 33.6 = 0.76 48.8 / 53.6 = 0.91 15.11.2018 <Opponent Modeling> Experiments SBS Revisited

Opponent Modeling <Experiments> SBS Revisited Leistungsmessung ist nicht einfach komplexes System Komponenten beeinflussen sich gegenseitig Zufall viele Spiele nötig für aussagekräftige Vergleiche Problem: Änderungen der Spiel-Strategie! Lösung doppeltes Spielen der Karten dazwischen Position tauschen bei >2 Spielern noch öfter spielen [Zeit < 12-13 Min] 15.11.2018 Opponent Modeling <Experiments> SBS Revisited

Predictor-Genauigkeit in Online Spielen  Mehrfach-Predictor (Meta-Perdictor) ist am genauesten  die Aktionen von menschlichen Spielern können besser vorhergesagt werden 15.11.2018 Opponent Modeling <Experiments> SBS Revisited

Opponent Modeling <Experiments> SBS Revisited Performanz (1) Standard Formula-Based Strategy alle SBS verlieren gegen FBS Meta-Predictor schlägt sich noch am Besten *1 Animation überspringen* großer Wert (kürzerer Balken) ist besser Simulation-Based Strategies 15.11.2018 Opponent Modeling <Experiments> SBS Revisited

Opponent Modeling <Experiments> SBS Revisited Performanz (2) 15.11.2018 Opponent Modeling <Experiments> SBS Revisited

Opponent Modeling <Experiments> SBS Revisited Performanz (2) 15.11.2018 Opponent Modeling <Experiments> SBS Revisited

Experiments - Ergebnisse FBS und SBS erfolgreich gegen menschliche Spieler gute menschliche Spieler können die Programme aber schlagen Erwartung: SBS viel besser als FBS nicht bestätigt 15.11.2018 Opponent Modeling <Experiments> SBS Revisited

Opponent Modeling Experiments <SBS Revisited> Probleme der SBS an 10-Spieler-Tischen zu aggressiv check-raise und re-raise mit nur durchschnittlichen Karten im Heads-Up zu pessimistisch folded zu oft da EHS negativ trotz guten Karten Blufft nicht (oft genug) Estimated Hand Strength *1 Animation überspringen* 15.11.2018 Opponent Modeling Experiments <SBS Revisited>

Opponent Modeling Experiments SBS Revisited Ursache EV = Estimated Value Negative Verstärkung durch Self-Prediction EV < 0, bei zu häufigem Folden in der Simulation  Fold EV >> 0, bei zu häufigem Raise in der Simulation  Call o. Raise wegen Pot-Odds auch bei Ø Karten Schlechte Schätzung der Karten des Gegners EV < 0, da oft als zu gut geschätzt Beispiel zur schlechten Schätzung: Gegner folded zu 20% bei Raise am River, momentan sind 6 Big Blinds im Pot  bei einem Raise von wäre der Gewinn 0.2*6 – 0.8*1 = 0.4 Big Blinds Schätzung liefert 10%  Gewinn liegt bei -0.3 Big Blinds 15.11.2018 Opponent Modeling Experiments SBS Revisited

Neuer Ansatz: „Miximax“ Suche EV: Ergebnis eines Hand Evaluators Wissen aus OM Wir Gegner Wir *2 Animationen nacheinander* Gegner 15.11.2018 Opponent Modeling Experiments <SBS Revisited>

„Miximax“ Suche - Auswertung 4.99*0.8 2.97*0.2 Max(0.00, 3.86, 4.99) *2 Animationen (überspringen)* 15.11.2018 Opponent Modeling Experiments <SBS Revisited>

Verbesserung: „Miximix“ nicht immer die Aktion mit dem höchsten EV wählen Ergebnis der Suche ist Liste mit den höchsten n EV und der nötigen Aktionen Max-Funktion des Gegners wird durch eine Funktion Φ ersetzt Ergebnis ist ein Tripel mit Wahrscheinlichkeiten der Gegner-Aktionen resultierender EV ist die gewichtete Summe  Modellierung unserer gemischten Strategie innerhalb der Suche 2. Punkt  Gegner spielt auch nicht immer die beste Strategie 15.11.2018 Opponent Modeling Experiments <SBS Revisited>

Opponent Modeling Experiments <SBS Revisited> Pruning (= Abschneiden von Ästen) um Rechenzeit zu sparen vor oder beim Flop bei mehreren Spielern Simulation nur für wenige repräsentative Karten unwahrscheinliche Zweige weglassen 15.11.2018 Opponent Modeling Experiments <SBS Revisited>

Opponent Modeling Experiments <SBS Revisited> Performanz (3) 15.11.2018 Opponent Modeling Experiments <SBS Revisited>

Opponent Modeling Experiments SBS Revisited Fragen? Quelle: Aaron Davidson, “Opponent Modeling in Poker: Learning and Acting in a Hostile and Uncertain Environment”, M.Sc. thesis, Chapters 4-6 (http://poker.cs.ualberta.ca/papers/Papers/davidson.msc.pdf) 15.11.2018 Opponent Modeling Experiments SBS Revisited