{ "cells": [ { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "The notexbook extension is already loaded. To reload it, use:\n", " %reload_ext notexbook\n" ] }, { "data": { "text/html": [ "\n", "\n", "" ], "text/plain": [ "" ] }, "execution_count": 3, "metadata": {}, "output_type": "execute_result" } ], "source": [ "%load_ext notexbook\n", "%texify" ] }, { "cell_type": "markdown", "metadata": { "collapsed": true }, "source": [ "---\n", "# Interaction stratégique\n", "---" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## I. Jouer en simultané\n", "\n", "On considère pour commencer les situations où les agents vont jouer leurs actions de manière simultanée. \n", "Pour la simplicité, les exemples impliquent à chaque fois deux agents, mais les notions restent valides pour plus de deux agents. " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 1. Un problème classique: le dilemme du prisonnier" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Deux joueurs ont été appréhendés après un vol. Il est clair que au moins un des deux a commis ce délit. \n", "Ils sont interrogés en parallèle, et disposent des mêmes actions: garder le **silence**, ou **dénoncer** l'autre. \n", "Ils jouent donc en simultané, sans se concerter. \n", "Selon le choix de stratégies des joueurs, les gains sont les suivants: \n", "\n", "|R \\ B | **silence** | **dénoncer** |\n", "|------|------|------|\n", "| **silence** | (20,20) | (0,30) |\n", "| **dénoncer** | (30,0) | (10,10) | \n", "\n", "\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Analysons du point de vue du joueur R les **meilleures réponses** selon les choix de l'agent B: \n", "* si B garde le silence, il vaut mieux que R dénonce l'autre (30>20)\n", "* si B dénonce, il vaut mieux que R dénonce aussi (10>0)\n", "\n", "Les meilleures réponses pour R sont donc: \n", "\n", "| meilleure réponse | action de B |\n", "|------|------|\n", "|dénonce | dénonce|\n", "|dénonce | silence|\n", "\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### Stratégie dominante\n", "\n", "Lorsque, pour un joueur $X$, la table de meilleures réponses indique toujours la même stratégie, on parle de **stratégie dominante** pour le joueur $X$. \n", "\n", "> La stratégie **dénoncer** est donc dominante pour R et pour B\n", "\n", "#### Stratégies dominées\n", "\n", "Il est rare qu'il existe des stratégies dominantes. Mais il est plus courant de pouvoir identifier des **stratégies dominées** par une autre stratégie. Il est en fait possible de distinguer plusieurs niveaux de dominance: \n", "* une stratégie $s$ **domine fortement** une autre stratégie $s'$ si les gains obtenus pour $s$ sont toujours (ie. quelque soit la stratégie de l'autre joueur) strictement supérieurs à ceux de la stratégie $s'$. \n", "* une stratégie $s$ **domine faiblement** une autre stratégie $s'$ si les gains obtenus pour $s$ sont toujours (ie. quelque soit la stratégie de l'autre joueur) supérieurs ou égaux à ceux de la stratégie $s'$, et strictement supérieurs pour au moins une stratégie de l'autre agent. \n", "\n", "Considérons cet autre exemple: \n", "\n", "|R \\ B | **a** | **b** | **c** |\n", "|------|------|------|------|\n", "| **d** | (20,20) | (0,30) | (20,10) |\n", "| **e** | (30,10) | (10,0) | (0,10) |\n", "\n", "\n", "On constate qu'ici, pour l'agent R, aucune stratégie ne domine l'autre. Pour l'agent B, la stratégie $c$ est dominée par la stratégie $a$, mais aucune stratégie n'est dominante. \n", "\n", "\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### Equilibre de Nash\n", "\n", "Lorsque les stratégies sont des **meilleures réponses mutuelles**, on se trouve dans un **équilibre de Nash**: aucun agent n'aurait intérêt, unilatéralement, a changer de stratégie. \n", "\n", "> Ici la stratégie jointe **dénoncer/dénoncer** est un EN\n", "\n", "Ici, on observe que cet équilibre de Nash est dominé par le résultat (20,20) qui serait atteint si les deux joueurs gardaient le silence. \n", "\n", "Ce type de dilemme a été largement étudié, et même utilisé dans des jeux (par exemple dans l'émission de TV britannique Golden Balls, qui repose sur une situation proche). \n", "\n", "On a pour coutume de parler d'action de **coopération**, ou de **trahison** dans ce cadre. Notons que l'on peut varier les valeurs dans de gains la matrice sans changer la nature du dilemme. Il y a en effet une valeur obtenue en cas de coopération mutuelle ($cc$), une valeur de piège obtenue en cas de trahison mutuelle ($tt$), et dans le cas ($tc$), une valeur T de traitrise et une de dupe ($tc$). \n", "Pour rester dans une situation de dilemme, il faut que $tc>cc>tt>ct$. \n" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "(20, 20)\n" ] } ], "source": [ "def jouerDP(s1,s2):\n", " gains = {'cc':(20,20), 'ct':(0,30), 'tt':(10,10), 'tc': (30,0)}\n", " return gains[str(s1)+str(s2)]\n", "\n", "print (jouerDP('c','c'))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 2. Dilemme du prisonnier itéré" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Imaginons à présent que deux joueurs (toujours les mêmes) jouent plusieurs fois d'affilée un dilemme du prisonnier. \n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Définir une stratégie pour le dilemme du prisonnier itéré, c'est donc définir quel coup jouer, en fonction de :\n", "* les coups que l'on a joués précédemment\n", "* les coups que l'autre a joués précédemment\n", "\n", "Notez que cela inclue également quel premier coup jouer. Les stratégies peuvent également faire intervenir des aspects stochastiques, etc." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Des stratégies classiques sont les suivantes: \n", "* toujours coopérer/trahir\n", "* jouer au hasard\n", "* alterner trahison et coopération\n", "* donnant-donnant (tit-for-tat): commencer par coopérer, puis jouer comme le dernier coup joué par l'adversaire\n", "* rancunière: on coopère, et dès que l'autre trahit, on trahit pour toujours" ] }, { "cell_type": "code", "execution_count": 17, "metadata": {}, "outputs": [], "source": [ "import random\n", "def prochainCoup(mesCoups,adversCoups,nom):\n", " \"\"\"selon la liste de mes coups et des coups de l'autre\n", " je choisis un coup \"\"\"\n", " \n", " #\n", " # strategies de base\n", " #\n", " if nom=='trahison':\n", " return 't'\n", " \n", " if nom=='coopere':\n", " return 'c'\n", " \n", " if nom=='titfortat':\n", " if adversCoups == []:\n", " return 'c'\n", " else:\n", " return adversCoups[-1]\n", " \n", " if nom=='random':\n", " return random.choice(['t','c'])\n", " if nom=='alterne':\n", " if mesCoups == []:\n", " return 'c'\n", " elif mesCoups[-1]=='t':\n", " return 'c'\n", " else:\n", " return 't'\n", " # \n", " # quelques strategies proposees par les etudiants en cours\n", " #\n", " \n", " if nom=='titfortatBis':\n", " if adversCoups == []:\n", " return 't'\n", " else:\n", " return adversCoups[-1]\n", " if nom=='titfortatTer':\n", " if adversCoups == []:\n", " return 'c'\n", " else:\n", " if len(mesCoups) == 1:\n", " return adversCoups[-1]\n", " elif adversCoups[-1]=='t' or (mesCoups[-1]=='t' and mesCoups[-2] == 'c'):\n", " return 't'\n", " else:\n", " return 'c'\n", " \n", " if nom=='equipeABis':\n", " nbC = 0\n", " nbT = 0\n", " for i in adversCoups:\n", " if i =='c':\n", " nbC += 1\n", " else:\n", " nbT += 1\n", " if len(adversCoups)<4:\n", " return 'c'\n", " else:\n", " if nbT>nbC:\n", " return 't'\n", " else:\n", " return 'c'\n", " \n", " \n", " if nom=='equipeA': \n", " if (len(adversCoups) < 5):\n", " return 'c'\n", " return 't'\n", " " ] }, { "cell_type": "code", "execution_count": 11, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "c\n" ] } ], "source": [ "print (prochainCoup([],[],'random'))" ] }, { "cell_type": "code", "execution_count": 18, "metadata": {}, "outputs": [], "source": [ "nbIterations=10\n", "toPlot = {'R':[0], 'B':[0]}\n", "coupsJoues = {'R': [], 'B': []}\n", "gainsCumules = {'R': 0, 'B': 0}\n", "strategie = {'R': 'titfortat', 'B': 'trahison'}\n", "\n", "for i in range(nbIterations):\n", " coupR = prochainCoup(coupsJoues['R'],coupsJoues['B'],strategie['R'])\n", " coupB = prochainCoup(coupsJoues['B'],coupsJoues['R'],strategie['B'])\n", " gainR,gainB = jouerDP(coupR,coupB)\n", " gainsCumules['R']+=gainR\n", " gainsCumules['B']+=gainB\n", " coupsJoues['R']+=coupR\n", " coupsJoues['B']+=coupB\n", " #print (\"R joue \",coupR, \", B joue\", coupB, \"--> gains:\", gainR, gainB)\n", " toPlot['R'].append(gainsCumules['R'])\n", " toPlot['B'].append(gainsCumules['B'])\n", "\n", " " ] }, { "cell_type": "code", "execution_count": 19, "metadata": {}, "outputs": [ { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": { "needs_background": "light" }, "output_type": "display_data" } ], "source": [ "%matplotlib inline\n", "import numpy as np\n", "from matplotlib import pyplot as plt\n", "from IPython.core.pylabtools import figsize\n", "import networkx as nx\n", "import pylab\n", "figsize(12.5, 4)\n", "#print (toPlot['R'],toPlot['B'])\n", "p = np.linspace(0, nbIterations, nbIterations+1)\n", "plt.plot(p, toPlot['R'], color='red')\n", "plt.plot(p, toPlot['B'], color = 'blue')\n", "legende = \"Gains cumulés des joueurs R (\" + strategie['R'] + \") et B (\" + strategie['B']+\")\"\n", "plt.suptitle(legende, y=1.02, fontsize=15)\n", "plt.tight_layout()\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "> En 1980, Robert Axelrod propose d'organiser des confrontations de stratégies lors d'un tournoi https://en.wikipedia.org/wiki/The_Evolution_of_Cooperation. \n", "C'est à cette occasion que la stratégie tit-fot-tat est proposée, par Anatol Rapoport. " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Comment évaluer la qualité des stratégies proposées? \n", "Il faut définir précisément ce que l'on veut dire par *meilleure stratégie*. \n", "On peut penser au moins à deux définitions: \n", "* une stratégie qui bat toutes (ou le maximum) d'autres stratégies lors des matchs un contre un\n", "* une stratégie qui obtient un gain cumulé après tous les matchs le plus élevé possible. " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Si l'objectif est simplement de battre les autres stratégies, alors la stratégie *toujours trahir* est la meilleure. Mais si l'objectif est de maximiser le gain sur l'ensemble des rencontres, alors les choses sont moins claires...\n", "En pratique, Tit-for-tat s'avère être une excellente stratégie. Pourtant elle est clairement battue par une stratégie de trahison constante, par exemple. Mais elle obtient de très bons scores contre toutes les stratégies. \n", "\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Pour aller plus loin sur sur le dilemme du prisonnier itéré: \n", "> * le site et les travaux de B. Beaufils, J.-P. Delahaye et Ph. Mathieu à l'Université de Lille. http://www.lifl.fr/IPD/ipd.html\n", "* un module Python [axelrod](https://axelrod.readthedocs.io/en/stable/) permettant de rejouer les tournois d'Axelrod, avec plus de 200 stratégies pré-codées.\n", "* et voir aussi la magnifique *explorable explanation* [The Evolution of Trust](http://ncase.me/trust/), par Nicky Case. \n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Les stratégies stochastiques" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "De manière générale, une stratégie stochastique à mémoire 1 coup est une stratégie qui donne la probabilité de joueur *c* au coup suivant, selon les coups joués par les joueurs au tour précédent: \n", "\n", "$ P = \\{Pcc,Pct,Ptc,Ptt \\}$\n", "\n", "Comment modéliser le tit-for-tat? \n", "\n", "A quoi correspond une stratégie $P = (1,0,0,1)$\n", "\n", "### Les ZD-stratégies\n", "\n", "En 2012, Press et Dyson ont publié un article qui a fait sensation dans le domaine. \n", "Ils définissent une famille paramétrique de stratégies stochastiques, où les probabilités sont liées selon les équations suivantes (pour le cas où les gains sont 5/3/1): \n", "\n", "$$ Pcc = 3a + 3b + c$$\n", "$$ Pct = 1 - 5b + c$$\n", "$$ Ptc = 5a + c$$\n", "$$ Ptt = a + b + c$$\n", "\n", "De manière remarquable, lorsqu'une stratégie $ZD(a,b,c)$ joue contre une autre statégie quelconque $G_2$, leurs gains sont liés de manière linéaire $aG1 + bG2 + c= 0$. En particulier, si $a=0$ et $b \\not = 0$, le gain de G2 est fixe (-b/c)!\n", "\n", "Sur les statégies ZD, voir également l'article de J.-P. Delahaye [Le dilemme du prisonnier et l'illusion de l'extorsion](http://cristal.univ-lille.fr/~jdelahay/pls/242.pdf)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## II. Jouer séquentiellement" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Considérons à présent un deuxième jeu très classique: **le jeu de la poule mouillée** (*the game of chicken*) \n", "\n", "|R \\ B | sauter | rester |\n", "|------|------|------|\n", "| **sauter** | (5,5) | (2,7) |\n", "| **rester** | (7,2) | (0,0) | " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Si l'on analyse ce jeu en tenant à présent compte de la séquence, c'est-à-dire du fait que un joueur jour après l'autre, que pouvons-nous en dire? " ] }, { "cell_type": "code", "execution_count": 50, "metadata": {}, "outputs": [], "source": [ "#--- pour petits tests rapides ---#\n", "\n", "\n", "# exemple Game of chicken\n", "successeurs = {'init':['a-saute','a-reste'],'a-saute':['a-saute-b-saute','a-saute-b-reste'],'a-reste':['a-reste-b-saute','a-reste-b-reste']}\n", "valeur = {'a-saute-b-saute':(5,5), 'a-reste-b-saute':(7,2), 'a-saute-b-reste':(2,7),'a-reste-b-reste':(0,0)}\n", "\n", "\n", "def feuille(state): # les feuilles n'apparaissent pas comme clés dans mon dictionnaire successeurs\n", " return state not in successeurs" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 1. Induction à rebours et algorithme Minimax\n", "\n", "On représente le jeu comme un arbre, où chaque joueur joue alternativement à chaque niveau de profondeur. \n", "L'analyse peut alors se faire à rebours: en remontant depuis les feuilles, on fait suppose que le joueur, confronté à plusieurs coups possibles, choisira celui qui lui procure *à ce stade-là* le meilleur gain. \n", "Au niveau au-dessus on peut itérer ce même raisonnement, suppoant ce que fera le joueur suivant, et ainsi de suite jusqu'à la racine. C'est le principe de l'**induction à rebours**. " ] }, { "cell_type": "code", "execution_count": 49, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "étendu noeud a-saute\n", "player: 0\n", "étendu noeud a-saute-b-saute\n", "player: 1\n", "feuille: (5, 5)\n", "étendu noeud a-saute-b-reste\n", "player: 1\n", "feuille: (2, 7)\n", "étendu noeud a-reste\n", "player: 0\n", "étendu noeud a-reste-b-saute\n", "player: 1\n", "feuille: (7, 2)\n", "étendu noeud a-reste-b-reste\n", "player: 1\n", "feuille: (0, 0)\n", "(7, 2)\n" ] } ], "source": [ "from operator import itemgetter\n", "\n", "\n", "def backward_induction(state,turn_taking):\n", " \"\"\" implementation de backward induction, turn_taking: sequence of agents \n", " \"\"\"\n", " v = maxValue(state,0,turn_taking)\n", " return v\n", "\n", "def maxValue(state,depth,turn_taking):\n", " if feuille(state): # si feuille on renvoie la valeur\n", " print(\"feuille:\", valeur[state])\n", " return valeur[state]\n", " \n", " v = inf # joue le role de infini\n", "\n", " for s in successeurs[state]:\n", " print (\"étendu noeud \", s)\n", " player= turn_taking[depth]\n", " print(\"player:\", player)\n", " # on remonte le vecteur de score pour lequel la valeur est max pour le joueur player\n", " v = max([v,maxValue(s,depth+1,turn_taking)],key=itemgetter(player))\n", " return v\n", "\n", "#------------------\n", "# test\n", "#------------------\n", "turn_taking=[0,1] # le joueur 0 jour, puis le joueur 1\n", "inf = [-1000]*len(turn_taking) # joue le role de infini\n", "print (backward_induction('init',turn_taking))\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Dans le cas où le jeu est un jeu à **somme nulle**, on peut se contenter de représenter la valeur au feuille de l'arbre par une valeur unique: un joueur cherche alors à minimiser le score tandis que l'autre cherche à le maximiser, on parle donc d'algorithme **minimax**. Notez qu'il s'agit d'un cas particulier d'induction à rebours. (Voir le code ci-dessous dans lequel les fonctions `minValue` et `maxValue` sont distinguées, par soucis de lisibilité). \n", "\n", "La valeur retournée par l'algorithme de recherche minimax est appelée **la valeur théorique du jeu**, qui serait obtenue sous l'hypothèse que les agents jouent rationnellement selon cet algorithme. \n" ] }, { "cell_type": "code", "execution_count": 52, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "étendu noeud b\n", "étendu noeud d\n", "étendu noeud h\n", "étendu noeud i\n", "étendu noeud e\n", "étendu noeud j\n", "étendu noeud k\n", "étendu noeud c\n", "étendu noeud f\n", "étendu noeud l\n", "étendu noeud m\n", "étendu noeud g\n", "étendu noeud n\n", "étendu noeud o\n", "9\n" ] } ], "source": [ "def minimax(state):\n", " \"\"\" implementation de minimax, version Russel & Norvig, Chapter 6\n", " \"\"\"\n", " v = maxValue(state)\n", " return v\n", "\n", "def maxValue(state):\n", " if feuille(state): # si feuille on renvoie la valeur\n", " return valeur[state]\n", " v = -inf\n", " for s in successeurs[state]:\n", " print (\"étendu noeud \", s)\n", " v = max(v,minValue(s))\n", " return v\n", " \n", "def minValue(state):\n", " if feuille(state): # si feuille on renvoie la valeur\n", " return valeur[state]\n", " v = inf\n", " for s in successeurs[state]:\n", " print (\"étendu noeud \", s)\n", " v = min(v,maxValue(s))\n", " return v\n", "\n", "#------------------\n", "# test\n", "#------------------\n", "\n", "inf = 1000 # joue le role de infini\n", "successeurs = {'a':['b','c'],'b':['d','e'],'c':['f','g'],'d':['h','i'],'e':['j','k'],'f':['l','m'],'g':['n','o']}\n", "valeur = {'h':4, 'i':9, 'j': 8, 'k': 12, 'l':5, 'm':6, 'n':1, 'o':7}\n", "print (minimax('a'))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 3. Elagage Alpha-beta (pruning)\n", "\n", "L'algorithme minimax étend l'intégralité des noeuds de l'arbre. Pour éviter cette exploration complète de l'arbre de jeu, on peut exploiter le fait que les joueurs sont des MINimisateurs et des MAXimisateurs. En chaque noeud, on va garder mémoire dans la recherche de deux valeurs, qui vont parfois permettre de couper certaines parties de l'arbre de recherche. \n", "\n", "* la valeur $\\alpha$ est une borne inf que la recherche maximise. C'est donc la valeur min que peut se garantir le joueur MAX. \n", "* la valeur $\\beta$ est une borne sup que la recherche minimise. C'est donc la valeur max que peut se garantir le joueur MIN. \n", "\n", "Donc le joueur MAX met à jour les valeurs $\\alpha$, et le joueur MIN met à jour les valeur $\\beta$. \n", "\n", "Il y a donc deux types de coupes dans l'arbre de recherche qui peuvent survenir: \n", "* une **coupe** $\\alpha$ survient lorsque, pour un noeud MIN, on a trouvé un noeud parmi les fils avec une valeur $\\leq \\alpha$\n", "* une **coupe** $\\beta$ survient lorsque, pour un noeud MAX, on a trouvé un noeud parmi les fils avec une valeur $\\geq \\beta$\n", "\n", "Pour bien comprendre le principe de la coupe, il faut raisonner sur deux niveaux (MAX et MIN). Par exemple, pour une coupe $\\alpha$, si on trouve pour un noeud MIN une valeur $\\leq \\alpha$ cela signifie que MIN remontera une valeur $\\leq \\alpha$ (il minimise), quelque soient les valeurs des autres fils explorés. Or (au dessus) MAX a une garantie d'obtenir au moins $\\alpha$. Poursuivre l'exploration est donc superflu. \n" ] }, { "cell_type": "code", "execution_count": 54, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "étendu noeud b\n", "étendu noeud d\n", "étendu noeud h\n", "étendu noeud i\n", "étendu noeud e\n", "étendu noeud j\n", "étendu noeud k\n", "coupe beta\n", "étendu noeud c\n", "étendu noeud f\n", "étendu noeud l\n", "étendu noeud m\n", "coupe alpha\n", "9\n" ] } ], "source": [ "def alphabeta(state):\n", " \"\"\" implementation de alphabeta, version Russel & Norvig, Chapter 6\n", " \"\"\"\n", " v = maxValue(state,-inf,inf)\n", " return v\n", "\n", "def maxValue(state,alpha,beta):\n", " if feuille(state): # si feuille on renvoie la valeur\n", " return valeur[state]\n", " v = -inf\n", " for s in successeurs[state]:\n", " print (\"étendu noeud \", s)\n", " v = max(v,minValue(s,alpha,beta))\n", " if v >= beta: # coupe beta, pas la peine d'étendre les autres fils\n", " print (\"coupe beta\")\n", " return v\n", " alpha = max(alpha,v) # mise à jour de alpha par MAX\n", " return v\n", " \n", "def minValue(state,alpha,beta):\n", " if feuille(state): # si feuille on renvoie la valeur\n", " return valeur[state]\n", " v = inf\n", " for s in successeurs[state]:\n", " print (\"étendu noeud \", s)\n", " v = min(v,maxValue(s,alpha,beta))\n", " if v <= alpha: # coupe alpha, pas la peine d'étendre les autres fils\n", " print (\"coupe alpha\")\n", " return v\n", " beta = min(beta,v)\n", " return v\n", "\n", "#------------------\n", "# test\n", "#------------------\n", "\n", "inf = 1000 # joue le role de infini\n", "successeurs = {'a':['b','c'],'b':['d','e'],'c':['f','g'],'d':['h','i'],'e':['j','k'],'f':['l','m'],'g':['n','o']}\n", "valeur = {'h':4, 'i':9, 'j': 8, 'k': 12, 'l':5, 'm':6, 'n':1, 'o':7}\n", "\n", "print (alphabeta('a'))\n", "\n", "\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 3. Pour aller plus loin" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Limites des concepts de solution proposés" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "On observe souvent que les humains ne se comportent pas de la manière prescrite par les solutions de théorie des jeux. \n", "En particulier, de nombreux jeux reposent sur une notion de **confiance réciproque** qui peut amener à des solutions plus favorables pour tout le monde. \n", "Un des plus connu est le **Trust Game**: un agent, doté d'un budget $B$, a le choix entre donner un certaine somme à un autre agent et ne rien donner. S'il donne une somme $x$ à l'agent 2, cette somme est triplée et l'agent 2 a alors le choix entre ne rien donner, ou donner une somme en retour à l'agent 1. \n", "Par induction à rebours, l'agent 1 ne doit rien donner initialement, car il n'y a aucune incitation pour l'agent 2 a lui rendre de l'argent... \n", "Toutefois les expériences avec des sujets humains contredisent ces prédictions. \n", "\n", "Des travaux tentent donc de capturer ces notions de confiance réciproque. \n", "Intuitivement, si l'on considère le jeu séquentiel suivant: \n", "* 1: jouer A: (2,0)\n", "* 1: jouer B: \n", " * 2: jouer C: (0,2)\n", " * 2: jouer D: (2,1)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Dans ce cas-là, le raisonnement suivant est possible: si le joueur 2 observe que 1 n'a pas joué A qui lui aurait garanti un gain de 2, par réciprocité le joueur 2 doit offrir au moins au moins autant à l'agent 1. Sur cette exemple, l'agent 2 devrait donc jouer D selon ce principe. Mais ce principe peut être itéré, ce qui amène à des nouveaux concepts de solutions. \n", "\n", "> Pour aller plus loin: Joshua Letchford, Vincent Conitzer, and Kamal Jain. An \"Ethical\" Game-Theoretic Solution Concept for Two-Player Perfect-Information Games. In Proceedings of the Fourth Workshop on Internet and Network Economics (WINE-08), pp. 696-707, Shanghai, China, 2008" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Récréation finale: l'exemple du jeu de Hex\n", "\n", "Le jeu de Hex est un jeu combinatoire dont les règles s'expriment très simplement, mais qui est d'une grande richesse. Les règles sont les suivantes: \n", "* chaque joueur peut poser à son tour une tuile n'importe où sur le terrain\n", "* le joueur qui parvient à relier ses deux bordures (de même couleur) est le gagnant\n", "\n", "![Une position gagnante pour le joueur bleu (image Wikipedia)](https://upload.wikimedia.org/wikipedia/commons/3/38/Hex-board-11x11-%282%29.jpg)\n", "\n", "Ce jeu possède quelques propriétés remarquables:\n", "* les matchs nuls ne peuvent pas se produire\n", "* tout joueur jouant en premier dispose d'une **stratégie gagnante** (il peut donc gagner quelque soit les coups joués par les autres). \n", "\n", "Toutefois ces stratégies gagnantes ne sont connues que pour les petites tailles de parties (jusqu'à 7x7 à ma connaissance). \n", "\n", "\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "> Version du 10 Mars 2021. Style *no$\\TeX$book* [(voir ici)](https://pypi.org/project/notexbook-theme/).\n", "En cas de problème d'affichage, ouvrir l'URL dans le nbviewer.jupyter.org/\n", "Pour profiter pleinement du notebook et pouvoir tester de manière interactive, vous devez l'ouvrir par `jupyter notebook`" ] }, { "cell_type": "code", "execution_count": null, "metadata": { "collapsed": true }, "outputs": [], "source": [] } ], "metadata": { "anaconda-cloud": {}, "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.7.4" } }, "nbformat": 4, "nbformat_minor": 1 }