Théorie des jeux évolutionnaires - Evolutionary game theory

La théorie des jeux évolutionnaires ( EGT ) est l' application de la théorie des jeux à des populations en évolution en biologie . Il définit un cadre de concours, de stratégies et d'analyses dans lequel la concurrence darwinienne peut être modélisée. Il est né en 1973 avec la formalisation des concours de John Maynard Smith et George R. Price , analysés comme des stratégies, et les critères mathématiques qui peuvent être utilisés pour prédire les résultats de stratégies concurrentes.

La théorie des jeux évolutionnaires diffère de la théorie des jeux classique en se concentrant davantage sur la dynamique du changement de stratégie. Ceci est influencé par la fréquence des stratégies concurrentes dans la population.

La théorie des jeux évolutionnistes a aidé à expliquer la base des comportements altruistes dans l' évolution darwinienne . Il intéresse à son tour les économistes , les sociologues , les anthropologues et les philosophes .

Histoire

Théorie des jeux classique

La théorie classique des jeux non coopératifs a été conçue par John von Neumann pour déterminer les stratégies optimales dans les compétitions entre adversaires. Un concours implique des joueurs, qui ont tous un choix de coups. Les jeux peuvent être en un seul tour ou répétitifs. L'approche qu'un joueur adopte dans l'exécution de ses mouvements constitue sa stratégie. Les règles régissent le résultat des mouvements effectués par les joueurs, et les résultats produisent des gains pour les joueurs ; les règles et les gains résultants peuvent être exprimés sous forme d' arbres de décision ou dans une matrice de gains . La théorie classique oblige les joueurs à faire des choix rationnels. Chaque joueur doit tenir compte de l'analyse stratégique que font ses adversaires pour faire son propre choix de coups.

Le problème des comportements ritualisés

Le biologiste mathématique John Maynard Smith a modélisé des jeux évolutionnaires.

La théorie des jeux évolutionnistes a commencé avec le problème de savoir comment expliquer le comportement animal ritualisé dans une situation de conflit ; « Pourquoi les animaux sont-ils si « gentilmans ou ladylike » dans les concours de ressources ? » Les principaux éthologues Niko Tinbergen et Konrad Lorenz ont proposé qu'un tel comportement existe pour le bien de l'espèce . John Maynard Smith considérait qu'incompatible avec la pensée darwinienne, où la sélection se produit au niveau individuel, l'intérêt personnel est récompensé alors que la recherche du bien commun ne l'est pas. Maynard Smith, un biologiste mathématique, s'est tourné vers la théorie des jeux comme suggéré par George Price, bien que les tentatives de Richard Lewontin pour utiliser la théorie aient échoué.

Adapter la théorie des jeux aux jeux évolutifs

Maynard Smith s'est rendu compte qu'une version évolutive de la théorie des jeux n'exige pas que les joueurs agissent de manière rationnelle, mais seulement qu'ils aient une stratégie. Les résultats d'un jeu montrent à quel point cette stratégie était bonne, tout comme l' évolution teste des stratégies alternatives pour la capacité de survivre et de se reproduire. En biologie, les stratégies sont des traits hérités génétiquement qui contrôlent l'action d'un individu, de manière analogue aux programmes informatiques. Le succès d'une stratégie est déterminé par la qualité de la stratégie en présence de stratégies concurrentes (y compris elle-même) et par la fréquence à laquelle ces stratégies sont utilisées. Maynard Smith a décrit son travail dans son livre Evolution and the Theory of Games .

Les participants visent à produire autant de répliques d'eux-mêmes que possible, et le gain est en unités de fitness (valeur relative de pouvoir se reproduire). C'est toujours un jeu multi-joueurs avec de nombreux concurrents. Les règles incluent la dynamique du réplicateur, en d'autres termes comment les joueurs les plus aptes engendreront plus de répliques d'eux-mêmes dans la population et comment les moins aptes seront sélectionnés , dans une équation de réplicateur . La dynamique du réplicateur modélise l'hérédité mais pas la mutation, et suppose une reproduction asexuée par souci de simplicité. Les jeux sont exécutés de manière répétitive sans conditions de fin. Les résultats incluent la dynamique des changements dans la population, le succès des stratégies et les états d'équilibre atteints. Contrairement à la théorie des jeux classique, les joueurs ne choisissent pas leur stratégie et ne peuvent pas la changer : ils sont nés avec une stratégie et leur progéniture hérite de cette même stratégie.

Jeux évolutifs

Des modèles

La théorie des jeux évolutionnistes analyse les mécanismes darwiniens avec un modèle de système avec trois composants principaux - la population , le jeu et la dynamique des réplicateurs . Le processus du système comporte quatre phases :

1) Le modèle (comme l'évolution elle-même) traite d'une population (Pn). La population présentera des variations parmi les individus concurrents. Dans le modèle, cette compétition est représentée par le jeu.

2) Le jeu teste les stratégies des individus selon les règles du jeu. Ces règles produisent différents gains – en unités de fitness (le taux de production de la progéniture). Les individus en compétition se rencontrent dans des compétitions par paires avec d'autres, normalement dans une distribution très mélangée de la population. Le mélange de stratégies dans la population affecte les résultats des gains en modifiant les chances qu'un individu puisse se rencontrer dans des compétitions avec diverses stratégies. Les individus quittent le jeu par paires avec une aptitude résultante déterminée par le résultat du concours, représenté dans une matrice de gains .

3) Sur la base de cette aptitude résultante, chaque membre de la population subit ensuite une réplication ou un abattage déterminé par les mathématiques exactes du processus dynamique du réplicateur . Ce processus global produit alors une nouvelle génération P(n+1). Chaque individu survivant a désormais un nouveau niveau de forme physique déterminé par le résultat du jeu.

4) La nouvelle génération prend alors la place de la précédente et le cycle se répète. Le mélange de population peut converger vers un état évolutif stable qui ne peut être envahi par aucune stratégie mutante.

La théorie des jeux évolutionnaires englobe l'évolution darwinienne, y compris la compétition (le jeu), la sélection naturelle (dynamique des réplicateurs) et l'hérédité. La théorie des jeux évolutionnaires a contribué à la compréhension de la sélection de groupe , de la sélection sexuelle , de l' altruisme , des soins parentaux , de la co-évolution et de la dynamique écologique . De nombreuses situations contre-intuitives dans ces domaines ont été mises sur une base mathématique solide par l'utilisation de ces modèles.

La manière courante d'étudier la dynamique évolutive dans les jeux est d' utiliser des équations de réplicateur . Ceux-ci montrent le taux de croissance de la proportion d'organismes utilisant une certaine stratégie et ce taux est égal à la différence entre le gain moyen de cette stratégie et le gain moyen de la population dans son ensemble. Les équations de réplicateur continu supposent des populations infinies, un temps continu , un mélange complet et que les stratégies se reproduisent vraies. Les attracteurs (points fixes stables) des équations sont équivalents à des états évolutifs stables . Une stratégie qui peut survivre à toutes les stratégies « mutantes » est considérée comme stable sur le plan de l'évolution. Dans le contexte du comportement animal, cela signifie généralement que de telles stratégies sont programmées et fortement influencées par la génétique , rendant ainsi la stratégie de tout acteur ou organisme déterminée par ces facteurs biologiques.

Les jeux évolutionnaires sont des objets mathématiques avec des règles, des gains et des comportements mathématiques différents. Chaque "jeu" représente différents problèmes auxquels les organismes doivent faire face et les stratégies qu'ils pourraient adopter pour survivre et se reproduire. Les jeux évolutifs portent souvent des noms colorés et des histoires de couverture qui décrivent la situation générale d'un jeu particulier. Les jeux représentatifs incluent le faucon-colombe , la guerre d'usure , la chasse au cerf , le producteur-scrouner , la tragédie des biens communs et le dilemme du prisonnier . Les stratégies pour ces jeux incluent le faucon, la colombe, le bourgeois, le sondeur, le transfuge, l'évaluateur et le représailleur. Les diverses stratégies rivalisent selon les règles du jeu particulier, et les mathématiques sont utilisées pour déterminer les résultats et les comportements.

Colombe faucon

Solution du jeu de la colombe faucon pour V=2, C=10 et base de départ fitness B=4. L'aptitude d'un faucon pour différents mélanges de population est représentée par une ligne noire, celle de la colombe en rouge. Un ESS (un point stationnaire) existera lorsque la fitness du faucon et de la colombe sont égales : les faucons représentent 20 % de la population et les colombes représentent 80 % de la population.

Le premier jeu analysé par Maynard Smith est le jeu classique de la colombe faucon . Il a été conçu pour analyser le problème de Lorenz et Tinbergen, un concours sur une ressource partageable. Les concurrents peuvent être un faucon ou une colombe. Ce sont deux sous-types ou morphes d'une même espèce avec des stratégies différentes. Le faucon affiche d'abord de l'agressivité, puis dégénère en combat jusqu'à ce qu'il gagne ou soit blessé (perd). La colombe montre d'abord de l'agressivité, mais si elle est confrontée à une escalade majeure, elle court pour la sécurité. Si elle n'est pas confrontée à une telle escalade, la colombe tente de partager la ressource.

Matrice de gains pour le jeu de la colombe faucon
rencontre faucon rencontre colombe
si faucon V/2 − C/2 V
si colombe 0 V/2

Étant donné que la ressource reçoit la valeur V, les dommages causés par la perte d'un combat reçoivent le coût C :

  • Si un faucon rencontre une colombe, le faucon obtient la pleine ressource V
  • Si un faucon rencontre un faucon, la moitié du temps qu'ils gagnent, la moitié du temps qu'ils perdent... donc le résultat moyen est alors V/2 moins C/2
  • Si une colombe rencontre un faucon, la colombe reculera et n'obtiendra rien – 0
  • Si une colombe rencontre une colombe, les deux partagent la ressource et obtiennent V/2

Le gain réel, cependant, dépend de la probabilité de rencontrer un faucon ou une colombe, qui à son tour est une représentation du pourcentage de faucons et de colombes dans la population lorsqu'un concours particulier a lieu. Cela, à son tour, est déterminé par les résultats de tous les concours précédents. Si le coût de perdre C est supérieur à la valeur de gagner V (la situation normale dans le monde naturel) les mathématiques se terminent par une stratégie évolutionnairement stable (ESS), un mélange des deux stratégies où la population de faucons est V/C . La population régresse jusqu'à ce point d'équilibre si de nouveaux faucons ou colombes perturbent temporairement la population. La solution du jeu de la colombe du faucon explique pourquoi la plupart des concours d'animaux n'impliquent que des comportements de combat rituels dans les concours plutôt que des batailles pures et simples. Le résultat ne dépend pas du tout des comportements « bien de l'espèce » comme le suggère Lorenz, mais uniquement de l'implication d'actions de gènes dits égoïstes .

Guerre d'usure

Dans le jeu de la colombe faucon, la ressource est partageable, ce qui donne des gains aux deux colombes se rencontrant dans un concours par paires. Lorsque la ressource n'est pas partageable, mais qu'une ressource alternative peut être disponible en reculant et en essayant ailleurs, les stratégies de faucon ou de colombe pures sont moins efficaces. Si une ressource non partageable est associée à un coût élevé de la perte d'un concours (blessure ou mort possible), les gains du faucon et de la colombe sont encore plus réduits. Une stratégie plus sûre d'affichage à moindre coût, de bluff et d'attente pour gagner est alors viable – une stratégie de bluff. Le jeu devient alors celui de l'accumulation des coûts, soit les coûts d'affichage, soit les coûts d'un engagement prolongé non résolu. C'est effectivement une vente aux enchères ; le gagnant est le concurrent qui avalera le coût le plus élevé tandis que le perdant reçoit le même coût que le gagnant mais aucune ressource. Les mathématiques de la théorie des jeux évolutionnaires qui en résultent conduisent à une stratégie optimale de bluff chronométré.

Guerre d'usure pour différentes valeurs de ressource. Notez le temps qu'il faut pour qu'une accumulation de 50% des concurrents abandonne par rapport à la valeur (V) de la ressource contestée.

En effet, dans la guerre d'usure, toute stratégie inébranlable et prévisible est instable, car elle sera finalement remplacée par une stratégie mutante qui repose sur le fait qu'elle peut surpasser la stratégie prévisible existante en investissant un delta supplémentaire de ressources en attente. pour s'assurer qu'il gagne. Par conséquent, seule une stratégie aléatoire et imprévisible peut se maintenir dans une population de bluffeurs. Les concurrents choisissent en effet un coût acceptable à encourir lié à la valeur de la ressource recherchée, faisant effectivement une offre aléatoire dans le cadre d'une stratégie mixte (une stratégie où un concurrent a plusieurs, voire plusieurs, actions possibles dans sa stratégie ). Cela met en œuvre une distribution d'enchères pour une ressource de valeur spécifique V, où l'enchère pour tout concours spécifique est choisie au hasard à partir de cette distribution. La distribution (un ESS) peut être calculée à l'aide du théorème de Bishop-Cannings, qui est vrai pour tout ESS à stratégie mixte. Parker et Thompson ont déterminé que la fonction de distribution de ces concours était :

Le résultat est que la population cumulée d'abandons pour un coût particulier m dans cette solution de « stratégie mixte » est :

comme le montre le graphique ci-contre. Le sentiment intuitif qu'une plus grande valeur des ressources recherchées entraîne des temps d'attente plus longs est confirmé. Ceci est observé dans la nature, comme chez les mouches mâles qui se disputent les sites d'accouplement, où le moment du désengagement dans les concours est tel que prédit par les mathématiques de la théorie de l'évolution.

Des asymétries qui permettent de nouvelles stratégies

Mouche du fumier ( Scatophaga stercoraria ) - un joueur de guerre d'usure
La crevette mante gardant sa maison avec la stratégie bourgeoise
Exemples de stratégie animale : en examinant les comportements, puis en déterminant à la fois les coûts et les valeurs des ressources obtenues dans un concours, la stratégie d'un organisme peut être vérifiée

Dans la guerre d'usure, rien ne doit signaler la taille d'une offre à un adversaire, sinon l'adversaire peut utiliser la réplique dans une contre-stratégie efficace. Il existe cependant une stratégie mutante qui peut mieux bluffer dans le jeu de la guerre d'usure si une asymétrie appropriée existe, la stratégie bourgeoise. Bourgeois utilise une sorte d'asymétrie pour sortir de l'impasse. Dans la nature, une telle asymétrie est la possession d'une ressource. La stratégie est de jouer un faucon s'il est en possession de la ressource, mais de l'afficher puis de battre en retraite s'il n'est pas en possession. Cela nécessite une plus grande capacité cognitive que le faucon, mais le bourgeois est courant dans de nombreux concours d'animaux, comme dans les concours entre les crevettes-mantes et parmi les papillons des bois mouchetés .

Comportement social

Alternatives pour l'interaction sociale de la théorie des jeux

Des jeux comme la colombe faucon et la guerre d'usure représentent une pure compétition entre les individus et n'ont aucun élément social associé. Lorsque les influences sociales s'appliquent, les concurrents ont quatre alternatives possibles pour l'interaction stratégique. Ceci est illustré sur la figure adjacente, où un signe plus représente un avantage et un signe moins représente un coût.

  • Dans une relation coopérative ou mutualiste , le « donateur » et le « bénéficiaire » sont presque indiscernables car tous deux gagnent un avantage dans le jeu en coopérant, c'est-à-dire que la paire est dans une situation de jeu où les deux peuvent gagner en exécutant une certaine stratégie, ou bien les deux doivent agir de concert en raison de certaines contraintes globales qui les mettent effectivement « dans le même bateau ».
  • Dans une relation altruiste , le donateur, à un coût pour lui-même, procure un avantage au bénéficiaire. Dans le cas général, le bénéficiaire aura un lien de parenté avec le donneur et le don est à sens unique. Les comportements où les bénéfices sont donnés alternativement (dans les deux sens) à un coût, sont souvent appelés « altruistes », mais sur l'analyse un tel « altruisme » peut être vu comme le résultat de stratégies « égoïstes » optimisées.
  • Le dépit est essentiellement une forme « inversée » d'altruisme où un allié est aidé en endommageant les concurrents de l'allié. Le cas général est que l'allié est lié à la famille et que l'avantage est un environnement concurrentiel plus facile pour l'allié. Remarque : George Price, l'un des premiers modélisateurs mathématiques de l'altruisme et de la rancune, a trouvé cette équivalence particulièrement troublante au niveau émotionnel.
  • L'égoïsme est le critère de base de tout choix stratégique du point de vue de la théorie des jeux - les stratégies qui ne visent pas l'auto-survie et l'auto-réplication ne sont pas longues pour n'importe quel jeu. De manière critique cependant, cette situation est affectée par le fait que la compétition se déroule à plusieurs niveaux – c'est-à-dire au niveau génétique, individuel et collectif.

Concours de gènes égoïstes

Les spermophiles femelles de Belding risquent leur vie en poussant des cris d'alarme bruyants, protégeant ainsi les membres féminins étroitement liés de la colonie ; les mâles sont moins étroitement apparentés et ne crient pas.

À première vue, il peut sembler que les concurrents des jeux évolutifs sont les individus présents dans chaque génération qui participent directement au jeu. Mais les individus ne vivent qu'à travers un cycle de jeu, et ce sont plutôt les stratégies qui s'affrontent vraiment pendant la durée de ces jeux à plusieurs générations. Ce sont donc en fin de compte les gènes qui jouent un concours complet – les gènes égoïstes de la stratégie. Les gènes contestataires sont présents chez un individu et dans une certaine mesure dans tous les parents de l'individu. Cela peut parfois profondément affecter les stratégies qui survivent, en particulier avec les problèmes de coopération et de défection. William Hamilton , connu pour sa théorie de la sélection des parents , a exploré bon nombre de ces cas en utilisant des modèles de la théorie des jeux. Le traitement lié à la parenté des concours de jeux aide à expliquer de nombreux aspects du comportement des insectes sociaux , le comportement altruiste dans les interactions parent-enfant, les comportements de protection mutuelle et les soins coopératifs de la progéniture . Pour de tels jeux, Hamilton a défini une forme étendue de fitness - fitness inclusif , qui inclut la progéniture d'un individu ainsi que tous les équivalents de progéniture trouvés dans la famille.

Les mathématiques de la sélection des parents
Le concept de sélection de parenté est le suivant :
forme physique inclusive = propre contribution à la forme physique + contribution de tous les membres de la famille .

La forme physique est mesurée par rapport à la population moyenne; par exemple, fitness = 1 signifie une croissance au taux moyen de la population, fitness < 1 signifie avoir une part décroissante dans la population (extinction), fitness > 1 signifie une part croissante dans la population (prise en charge).

La fitness inclusive d'un individu w i est la somme de sa fitness spécifique de lui - même

a i plus la fitness spécifique de chaque relatif pondérée par le degré de parenté qui équivaut à la sommation de tous les r j *b j .... ... où r j est la parenté d'un parent spécifique et b j est la fitness de ce parent spécifique – produisant :

Si l'individu a i sacrifie sa « propre forme physique équivalente moyenne de 1 » en acceptant un coût de forme physique C, puis pour « récupérer cette perte », w i doit toujours être égal à 1 (ou supérieur à 1)... et en utilisant R* B pour représenter les résultats de la sommation dans :

1< (1-C)+RB ....ou réarrangement..... R>C/B .

Hamilton est allé au-delà de la parenté pour travailler avec Robert Axelrod , analysant des jeux de coopération dans des conditions n'impliquant pas de parenté où l'altruisme réciproque entre en jeu.

Eusocialité et sélection de la parenté

Les ouvrières de la viande (toujours des femmes) sont apparentées à un parent par un facteur de 0,5, à une sœur par 0,75, à un enfant par 0,5 et à un frère par 0,25. Par conséquent, il est nettement plus avantageux d'aider à produire une sœur (0,75) que d'avoir un enfant (0,5).

Les ouvrières eusociales des insectes perdent leurs droits reproductifs sur leur reine. Il a été suggéré que la sélection de la parenté, basée sur la constitution génétique de ces travailleurs, peut les prédisposer à des comportements altruistes. La plupart des sociétés d'insectes eusociales ont une détermination sexuelle haplodiploïde , ce qui signifie que les travailleurs sont inhabituellement étroitement liés.

Cette explication de l'eusocialité des insectes a cependant été contestée par quelques théoriciens des jeux évolutionnaires de renom (Nowak et Wilson) qui ont publié une explication théorique des jeux alternative controversée basée sur un développement séquentiel et des effets de sélection de groupe proposés pour ces espèces d'insectes.

Le dilemme du prisonnier

Une difficulté de la théorie de l'évolution, reconnue par Darwin lui-même, était le problème de l' altruisme . Si la base de sélection se situe au niveau individuel, l'altruisme n'a aucun sens. Mais la sélection universelle au niveau du groupe (pour le bien de l'espèce, pas de l'individu) ne réussit pas le test des mathématiques de la théorie des jeux et n'est certainement pas le cas général dans la nature. Pourtant, chez de nombreux animaux sociaux, un comportement altruiste existe. La solution à ce problème peut être trouvée dans l'application de la théorie des jeux évolutionnistes au jeu du dilemme du prisonnier – un jeu qui teste les bénéfices de la coopération ou de l'abandon de la coopération. C'est le jeu le plus étudié de toute la théorie des jeux.

L'analyse du dilemme du prisonnier est comme un jeu répétitif. Cela offre aux compétiteurs la possibilité de riposter en cas de défection lors des tours de jeu précédents. De nombreuses stratégies ont été testées ; les meilleures stratégies concurrentielles sont la coopération générale, avec une riposte réservée si nécessaire. Le plus célèbre et l'un des plus réussis d'entre eux est le tit-for-tat avec un algorithme simple.

def tit_for_tat(last_move_by_opponent):
    if last_move_by_opponent == defect:
        defect()
    else:
        cooperate()

Le gain pour un seul tour du jeu est défini par la matrice des gains pour un seul tour de jeu (indiqué dans le graphique à barres 1 ci-dessous). Dans les jeux à plusieurs tours, les différents choix – coopérer ou faire défaut – peuvent être faits dans n'importe quel tour particulier, ce qui entraîne un certain gain de tour. Cependant, ce sont les gains cumulés possibles au cours des multiples tours qui comptent dans la formation des gains globaux pour différentes stratégies multi-tours telles que le tit-for-tat.

Gains dans deux variétés de jeu de dilemme du prisonnier
Dilemme du prisonnier : coopérer ou faire défaut
Remboursement (tentation de faire défection contre coopération) > Remboursement (coopération mutuelle) > Remboursement (défection conjointe) > Remboursement (le meunier coopère mais l'adversaire défauts)

Exemple 1 : Le jeu simple du dilemme du prisonnier à un tour. Les gains classiques du jeu du dilemme du prisonnier donnent à un joueur un gain maximum s'il fait défection et que son partenaire coopère (ce choix est connu sous le nom de tentation ). Si, cependant, le joueur coopère et que son partenaire fait défaut, il obtient le pire résultat possible (le gain des ventouses). Dans ces conditions de gain, le meilleur choix (un équilibre de Nash ) est de faire défaut.

Exemple 2 : Le dilemme du prisonnier joué à plusieurs reprises. La stratégie employée est le tit-for-tat qui modifie les comportements en fonction de l'action entreprise par un partenaire au tour précédent – ​​c'est-à-dire récompenser la coopération et punir la défection. L'effet de cette stratégie dans les gains accumulés sur de nombreux tours est de produire un gain plus élevé pour la coopération des deux joueurs et un gain plus faible pour la défection. Cela supprime la tentation de faire défaut. Le gain des drageons devient également moindre, bien que "l'invasion" par une stratégie de défection pure ne soit pas entièrement éliminée.

Les chemins de l'altruisme

L'altruisme a lieu lorsqu'un individu, à un coût (C) pour lui-même, exerce une stratégie qui procure un avantage (B) à un autre individu. Le coût peut consister en une perte de capacité ou de ressource qui aide dans la bataille pour la survie et la reproduction, ou un risque supplémentaire pour sa propre survie. Les stratégies d'altruisme peuvent survenir à travers :

Taper S'applique à: Situation Effet mathématique
Sélection des parents – (y compris la condition physique des concurrents apparentés) Kin – individus génétiquement apparentés Les participants au jeu évolutif sont des gènes de stratégie. Le meilleur gain pour un individu n'est pas nécessairement le meilleur gain pour le gène. Dans n'importe quelle génération, le gène du joueur n'est pas seulement chez un individu, il appartient à un groupe parent. Le gain de fitness le plus élevé pour le groupe de parenté est sélectionné par sélection naturelle. Par conséquent, les stratégies qui incluent l'abnégation de la part des individus sont souvent gagnantes - la stratégie évolutivement stable. Les animaux doivent vivre en groupes familiaux pendant une partie du jeu pour que ce sacrifice altruiste puisse avoir lieu. Les jeux doivent tenir compte de la condition physique inclusive. La fonction de fitness est la fitness combinée d'un groupe de concurrents apparentés - chacun pondéré par le degré de parenté - par rapport à la population génétique totale. L'analyse mathématique de cette vision du jeu centrée sur les gènes conduit à la règle de Hamilton, selon laquelle la parenté du donateur altruiste doit dépasser le rapport coût-bénéfice de l'acte altruiste lui-même :
R>c/b R est la parenté, c le coût, b le bénéfice
Réciprocité directe Les concurrents qui échangent des faveurs dans des relations en couple Une incarnation théorique des jeux de "Je te gratterai le dos si tu grattes le mien". Une paire d'individus échange des faveurs dans un jeu à plusieurs tours. Les individus sont reconnaissables les uns aux autres comme partenaires. Le terme « direct » s'applique parce que la faveur de retour est spécifiquement rendue au partenaire du couple uniquement. Les caractéristiques du jeu multi-tours produisent un danger de défection et les gains potentiellement moindres de la coopération à chaque tour, mais une telle défection peut entraîner une punition au tour suivant – établissant le jeu comme un dilemme répété du prisonnier. Par conséquent, la famille des stratégies de tit-for-tat vient au premier plan.
Réciprocité indirecte Les concurrents liés ou non liés échangent des faveurs, mais sans partenariat. Une faveur en retour est « implicite » mais sans source spécifique identifiée qui doit la donner. La faveur de retour n'est pas dérivée d'un partenaire établi particulier. Le potentiel de réciprocité indirecte existe pour un organisme spécifique s'il vit dans un groupe d'individus qui peuvent interagir sur une longue période de temps.

Il a été soutenu que les comportements humains dans l'établissement de systèmes moraux ainsi que la dépense d'énergies importantes dans la société humaine pour suivre les réputations individuelles est un effet direct de la dépendance des sociétés à des stratégies de réciprocité indirecte.

Le jeu est très sensible à la défection, car les représailles directes sont impossibles. Par conséquent, la réciprocité indirecte ne fonctionnera pas sans conserver un score social, une mesure du comportement coopératif passé. Les mathématiques conduisent à une version modifiée de la règle de Hamilton où :
q>c/b où q (la probabilité de connaître le score social) doit être supérieur au rapport coût/bénéfice

Les organismes qui utilisent le score social sont appelés discriminateurs et nécessitent un niveau de cognition plus élevé que les stratégies de simple réciprocité directe. Comme l'a dit le biologiste de l'évolution David Haig - "Pour la réciprocité directe, vous avez besoin d'un visage; pour la réciprocité indirecte, vous avez besoin d'un nom".

La stratégie évolutivement stable

La matrice des gains pour le jeu de la colombe faucon, avec l'ajout de la stratégie de l'évaluateur. Celui-ci « étudie son adversaire », se comportant comme un faucon face à un adversaire qu'il juge « plus faible », comme une colombe lorsque l'adversaire semble plus grand et plus fort. L'évaluateur est un ESS, car il peut envahir à la fois les populations de faucons et de colombes, et peut résister à l'invasion par des mutants de faucons ou de colombes.

La stratégie évolutivement stable (ESS) s'apparente à l'équilibre de Nash dans la théorie des jeux classique, mais avec des critères mathématiquement étendus. L'équilibre de Nash est un équilibre de jeu où il n'est rationnel pour aucun joueur de s'écarter de sa stratégie actuelle, à condition que les autres adhèrent à leurs stratégies. Un ESS est un état de dynamique de jeu où, dans une très grande population de concurrents, une autre stratégie mutante ne parvient pas à entrer dans la population pour perturber la dynamique existante (qui elle-même dépend du mélange de la population). Par conséquent, une stratégie réussie (avec un ESS) doit être à la fois efficace contre les concurrents lorsqu'il est rare - pour entrer dans la population concurrente précédente, et réussie lorsqu'elle est plus tard en forte proportion dans la population - pour se défendre. Cela signifie à son tour que la stratégie doit réussir lorsqu'elle affronte d'autres exactement comme elle.

Un ESS n'est pas :

  • Une stratégie optimale : cela maximiserait la forme physique, et de nombreux états ESS sont bien en deçà de la forme physique maximale réalisable dans un paysage de remise en forme. (Voir le graphique de la colombe ci-dessus à titre d'exemple.)
  • Une solution singulière : souvent plusieurs conditions ESS peuvent exister dans une situation concurrentielle. Un concours particulier peut se stabiliser dans l'une de ces possibilités, mais plus tard, une perturbation majeure des conditions peut déplacer la solution dans l'un des états ESS alternatifs.
  • Toujours présent : il est possible qu'il n'y ait pas de SSE. Un jeu évolutif sans ESS est "pierre-ciseaux-papier", comme on le trouve chez des espèces telles que le lézard à taches latérales ( Uta stansburiana ).
  • Une stratégie imbattable : l'ESS n'est qu'une stratégie indétrônable.
Les femelles d'araignées à toile d'entonnoir (Agelenopsis aperta) se disputent la possession de leurs toiles d'araignées du désert en utilisant la stratégie de l'évaluateur.

L'état du SSE peut être résolu en explorant soit la dynamique du changement de population pour déterminer un SSE, soit en résolvant des équations pour les conditions ponctuelles stationnaires stables qui définissent un SSE. Par exemple, dans le jeu de la colombe faucon, nous pouvons rechercher s'il existe une condition de mélange de population statique où la fitness des colombes sera exactement la même que la fitness des faucons (donc les deux ayant des taux de croissance équivalents - un point statique).

Laissez la chance de rencontrer un faucon=p donc donc la chance de rencontrer une colombe est (1-p)

Laissez Whawk égaler le gain pour le faucon .....

Whawk = gain de chance de rencontrer une colombe + gain de chance de rencontrer un faucon

Prendre les résultats de la matrice des gains et les connecter à l'équation ci-dessus :

Whawk = V·(1-p)+(V/2-C/2)·p

De même pour une colombe :

Wdove = V/2·(1-p)+0·(p)

donc....

Wdove = V/2·(1-p)

Assimiler les deux fitness, faucon et colombe

V·(1-p)+(V/2-C/2)·p = V/2·(1-p)

... et la résolution de p

p = V/C

donc pour ce "point statique" où le pourcentage de population est un ESS se résout en ESS (pourcentage de Hawk) = V/C

De même, en utilisant des inégalités, il peut être démontré qu'un autre mutant de faucon ou de colombe entrant dans cet état ESS entraîne finalement une moins bonne adéquation pour leur espèce - à la fois un véritable équilibre de Nash et un équilibre ESS. Cet exemple montre que lorsque les risques de blessure ou de décès du concours (le coût C) sont nettement supérieurs à la récompense potentielle (la valeur du bénéfice V), la population stable sera mélangée entre les agresseurs et les colombes, et la proportion de colombes dépassera cette proportion. des agresseurs. Ceci explique les comportements observés dans la nature.

Jeux instables, schémas cycliques

Pierre papier ciseaux

Pierre papier ciseaux
Invasion de mutants pour la matrice de paiement des ciseaux en papier de roche - un cycle sans fin
Une simulation informatique du jeu de papier ciseaux rock. La matrice de gains du jeu RPS associée est affichée. À partir d'une population arbitraire, le pourcentage des trois morphes s'accumule en un modèle en cycle continu.

Des ciseaux à papier roche incorporés dans un jeu évolutif ont été utilisés pour modéliser des processus naturels dans l'étude de l' écologie . En utilisant des méthodes d' économie expérimentale , les scientifiques ont utilisé des jeux RPS pour tester les comportements dynamiques évolutifs sociaux humains dans les laboratoires. Les comportements cycliques sociaux, prédits par la théorie évolutionniste des jeux, ont été observés dans diverses expériences de laboratoire.

Le lézard à taches latérales joue au RPS et à d'autres jeux cycliques

Le premier exemple de RPS dans la nature a été observé dans les comportements et les couleurs de la gorge d'un petit lézard de l'ouest de l'Amérique du Nord. Le lézard à taches latérales ( Uta stansburiana ) est polymorphe avec trois formes de couleur de gorge qui poursuivent chacune une stratégie d'accouplement différente

Le lézard à taches latérales utilise efficacement une stratégie d'accouplement pierre-papier-ciseaux
  • La gorge orange est très agressive et opère sur un vaste territoire - essayant de s'accoupler avec de nombreuses femelles dans cette plus grande zone
  • La gorge jaune non agressive imite les marques et le comportement des lézards femelles, et se glisse « sournoisement » dans le territoire de la gorge orange pour s'accoupler avec les femelles là-bas (reprenant ainsi la population)
  • La gorge bleue s'accouple avec et garde soigneusement une femelle - ce qui rend impossible le succès des baskets et prend donc leur place dans une population

Cependant les gorges bleues ne peuvent vaincre les gorges oranges plus agressives. Des travaux ultérieurs ont montré que les mâles bleus sont altruistes envers les autres mâles bleus, avec trois traits clés : ils signalent avec la couleur bleue, ils reconnaissent et s'installent à côté d'autres mâles bleus (non apparentés), et ils défendront même leur partenaire contre l'orange, au décès. C'est la marque de fabrique d'un autre jeu de coopération qui implique un effet de barbe verte .

Les femelles d'une même population ont la même couleur de gorge, ce qui affecte le nombre de descendants qu'elles produisent et la taille de la descendance, ce qui génère des cycles de densité, encore un autre jeu - le jeu rK. Ici, r est le paramètre malthusien régissant la croissance exponentielle, et K est la capacité de charge de la population. Les femelles oranges ont des couvées plus grandes et une progéniture plus petite et se portent bien à faible densité. Les femelles jaunes (et bleues) ont des couvées plus petites et une progéniture plus grande et se portent mieux lorsque la population dépasse la capacité de charge et que la population s'effondre à une faible densité. L'orange prend alors le relais et cela génère des cycles perpétuels d'orange et de jaune étroitement liés à la densité de population. L'idée de cycles dus à la régulation de la densité de deux stratégies est née avec Dennis Chitty , qui a travaillé sur les rongeurs, donc ce genre de jeux conduit à des "cycles de Chitty". Il y a des jeux dans des jeux dans des jeux intégrés dans des populations naturelles. Ceux-ci entraînent des cycles RPS chez les mâles avec une périodicité de quatre ans et des cycles rK chez les femelles avec une périodicité de deux ans.

La situation globale correspond à la pierre, aux ciseaux, au jeu de papier, créant un cycle de population de quatre ans. Le jeu RPS chez les lézards mâles à taches latérales n'a pas d'ESS, mais il a un équilibre de Nash (NE) avec des orbites infinies autour de l'attracteur NE. Depuis lors, de nombreux autres polymorphismes à trois stratégies ont été découverts chez les lézards et certains d'entre eux ont une dynamique RPS fusionnant le jeu mâle et le jeu de régulation de la densité dans un seul sexe (mâles). Plus récemment, il a été démontré que les mammifères hébergent le même jeu RPS chez les mâles et le même jeu rK chez les femelles, avec des polymorphismes de couleur de pelage et des comportements qui entraînent des cycles. Ce jeu est également lié à l'évolution des soins masculins chez les rongeurs et à la monogamie, et entraîne des taux de spéciation. Il existe des jeux de stratégie rK liés aux cycles de population de rongeurs (et aux cycles de lézards).

Lorsqu'il a lu que ces lézards étaient essentiellement engagés dans un jeu avec une structure pierre-papier-ciseaux, John Maynard Smith se serait exclamé "Ils ont lu mon livre!".

Signalisation, sélection sexuelle et principe du handicap

La queue du paon peut être un exemple du principe du handicap en action

Outre la difficulté d'expliquer comment l'altruisme existe dans de nombreux organismes évolués, Darwin a également été dérangé par une deuxième énigme - pourquoi un nombre important d'espèces ont des attributs phénotypiques qui leur sont manifestement désavantageux en ce qui concerne leur survie - et devrait par le processus de section naturelle être sélectionnée contre - par exemple la structure de plumes massive et peu pratique trouvée dans la queue d'un paon. À propos de cette question, Darwin a écrit à un collègue : « La vue d'une plume dans la queue d'un paon, chaque fois que je la regarde, me rend malade. » Ce sont les mathématiques de la théorie des jeux évolutionnistes, qui ont non seulement expliqué l'existence de l'altruisme, mais aussi l'existence totalement contre-intuitive de la queue de paon et d'autres encombrements biologiques.

A l'analyse, les problèmes de la vie biologique ne sont pas du tout différents des problèmes qui définissent l'économie - l'alimentation (apparentée à l'acquisition et la gestion des ressources), la survie (stratégie compétitive) et la reproduction (investissement, risque et rendement). La théorie des jeux a été conçue à l'origine comme une analyse mathématique des processus économiques et c'est d'ailleurs pourquoi elle s'est avérée si utile pour expliquer tant de comportements biologiques. Un autre raffinement important du modèle de la théorie des jeux évolutionniste qui a des connotations économiques repose sur l'analyse des coûts. Un modèle de coût simple suppose que tous les concurrents subissent la même pénalité imposée par les coûts du jeu, mais ce n'est pas le cas. Les joueurs les plus performants seront dotés ou auront accumulé une « réserve de richesse » ou une « abordabilité » plus élevée que les joueurs moins performants. Cet effet de richesse dans la théorie des jeux évolutionnaires est représenté mathématiquement par le « potentiel de détention de ressources (RHP) » et montre que le coût effectif pour un concurrent avec un RHP plus élevé n'est pas aussi élevé que pour un concurrent avec un RHP plus faible. Comme un individu RHP plus élevé est un partenaire plus souhaitable pour produire une progéniture potentiellement réussie, il est logique qu'avec la sélection sexuelle, RHP ait évolué pour être signalé d'une manière ou d'une autre par les rivaux concurrents, et pour que cela fonctionne, cette signalisation doit être faite honnêtement. . Amotz Zahavi a développé cette réflexion dans ce qu'on appelle le « principe du handicap », où les concurrents supérieurs signalent leur supériorité par un affichage coûteux. Comme les individus à RHP plus élevé peuvent se permettre un affichage aussi coûteux, cette signalisation est intrinsèquement honnête et peut être considérée comme telle par le récepteur de signal. Dans la nature cela est illustré que dans le plumage coûteux du paon . La preuve mathématique du principe du handicap a été développée par Alan Grafen en utilisant la modélisation évolutionnaire de la théorie des jeux.

Coévolution

Deux types de dynamiques :

  • Jeux évolutifs qui conduisent à une situation stable ou à un point de stase pour des stratégies conflictuelles qui aboutissent à une stratégie évolutivement stable
  • Jeux évolutifs qui présentent un comportement cyclique (comme avec le jeu RPS) où les proportions de stratégies rivales cycle continuellement au fil du temps au sein de la population globale
Coévolution compétitive - Le triton à peau rugueuse ( Tarricha granulosa ) est hautement toxique, en raison d'une course aux armements évolutive avec un prédateur, la couleuvre rayée ( Thamnophis sirtalis ), qui à son tour est très tolérant au poison. Les deux sont enfermés dans une course aux armements Red Queen .
Coévolution mutuelle - L'orchidée de Darwin ( Angraecum sesquipedale ) et le sphinx de Morgan ( Xanthopan morgani ) ont une relation mutuelle où le papillon gagne du pollen et la fleur est pollinisée .

Une troisième, coévolutive , dynamique, combine compétition intra-spécifique et inter-spécifique. Les exemples incluent la compétition prédateur-proie et la co-évolution hôte-parasite, ainsi que le mutualisme. Des modèles de jeu évolutifs ont été créés pour les systèmes coévolutifs par paires et multi-espèces. La dynamique générale diffère entre les systèmes compétitifs et les systèmes mutualistes.

Dans un système coévolutif inter-espèces compétitif (non mutualiste), les espèces sont impliquées dans une course aux armements - où les adaptations qui sont mieux en compétition avec les autres espèces ont tendance à être préservées. Les gains du jeu et la dynamique du réplicateur reflètent cela. Cela conduit à une dynamique de la reine rouge où les protagonistes doivent "courir aussi vite qu'ils le peuvent pour rester au même endroit".

Un certain nombre de modèles de théorie des jeux évolutionnistes ont été produits pour englober des situations de coévolution. Un facteur clé applicable dans ces systèmes coévolutifs est l'adaptation continue de la stratégie dans de telles courses aux armements. La modélisation coévolutive inclut donc souvent des algorithmes génétiques pour refléter les effets mutationnels, tandis que les ordinateurs simulent la dynamique du jeu coévolutif global. La dynamique résultante est étudiée au fur et à mesure de la modification de divers paramètres. Parce que plusieurs variables sont en jeu simultanément, les solutions deviennent le domaine de l'optimisation multivariable. Les critères mathématiques de détermination des points stables sont l'efficacité de Pareto et la dominance de Pareto, une mesure des pics d'optimalité de solution dans les systèmes multivariables.

Carl Bergstrom et Michael Lachmann appliquent la théorie des jeux évolutionnaires à la division des bénéfices dans les interactions mutualistes entre les organismes. Les hypothèses darwiniennes sur la fitness sont modélisées à l'aide de la dynamique des réplicateurs pour montrer que l'organisme évoluant à un rythme plus lent dans une relation mutualiste gagne une part disproportionnellement élevée des avantages ou des bénéfices.

Extension du modèle

Un modèle mathématique analysant le comportement d'un système doit d'abord être aussi simple que possible pour aider à développer une base de compréhension des fondamentaux, ou « effets de premier ordre », relatifs à ce qui est étudié. Une fois cette compréhension en place, il convient alors de voir si d'autres paramètres plus subtils (effets de second ordre) ont un impact supplémentaire sur les comportements primaires ou façonnent des comportements supplémentaires dans le système. À la suite des travaux fondateurs de Maynard Smith en théorie des jeux évolutionnistes, le sujet a connu un certain nombre d'extensions très importantes qui ont permis de mieux comprendre la dynamique évolutive, en particulier dans le domaine des comportements altruistes. Certaines de ces extensions clés de la théorie des jeux évolutionnistes sont :

Un jeu spatial
Dans un jeu évolutif spatial, les concurrents se rencontrent dans des compétitions à des positions de grille fixes et n'interagissent qu'avec leurs voisins immédiats. Voici la dynamique d'un concours Hawk Dove, montrant les concurrents Hawk et Dove ainsi que les changements de stratégie ayant lieu dans les différentes cellules

Jeux spatiaux

Les facteurs géographiques de l'évolution comprennent le flux de gènes et le transfert horizontal de gènes . Les modèles de jeux spatiaux représentent la géométrie en plaçant les concurrents dans un réseau de cellules : les concours n'ont lieu qu'avec des voisins immédiats. Les stratégies gagnantes s'emparent de ces quartiers immédiats puis interagissent avec les quartiers adjacents. Ce modèle est utile pour montrer comment des poches de coopérateurs peuvent envahir et introduire l'altruisme dans le jeu Prisoners Dilemma, où Tit for Tat (TFT) est un équilibre de Nash mais PAS aussi un ESS. La structure spatiale est parfois abstraite en un réseau général d'interactions. C'est le fondement de la théorie évolutionniste des graphes .

Effets d'avoir des informations

Dans la théorie des jeux évolutionniste comme dans la théorie des jeux conventionnelle, l'effet de la signalisation (l'acquisition d'informations) est d'une importance critique, comme dans la réciprocité indirecte dans le dilemme des prisonniers (où les combats entre les MÊMES individus appariés ne sont PAS répétitifs). Cela modélise la réalité de la plupart des interactions sociales normales qui ne sont pas liées à la parenté. À moins qu'une mesure de probabilité de réputation ne soit disponible dans Prisoners Dilemma, seule la réciprocité directe peut être obtenue. Avec ces informations, la réciprocité indirecte est également prise en charge.

Alternativement, les agents peuvent avoir accès à un signal arbitraire initialement non corrélé à la stratégie mais qui devient corrélé en raison de la dynamique évolutive. C'est l' effet barbe verte (voir les lézards à taches latérales, ci-dessus) ou l'évolution de l'ethnocentrisme chez l'homme. Selon le jeu, cela peut permettre l'évolution soit de la coopération, soit de l'hostilité irrationnelle.

Du niveau moléculaire au niveau multicellulaire, un modèle de jeu de signalisation avec asymétrie d'information entre l'expéditeur et le récepteur pourrait être approprié, comme l'attraction du partenaire ou l'évolution de la machinerie de traduction à partir de chaînes d'ARN.

Populations finies

De nombreux jeux évolutifs ont été modélisés en populations finies pour voir l'effet que cela peut avoir, par exemple dans le succès des stratégies mixtes.

Voir également

Remarques

Les références

Lectures complémentaires

  • Davis, Morton,; "Théorie des jeux - Une introduction non technique", Dover Books, ISBN  0-486-29672-5
  • Dawkins, Richard ; "Le gène égoïste", Oxford University Press, ISBN  0-19-929114-4
  • Dugatkin et Reeve ; "Théorie des jeux et comportement animal", Oxford University Press, ISBN  0-19-513790-6
  • Hofbauer et Sigmund ; "Jeux évolutionnaires et dynamique de la population", Cambridge University Press, ISBN  0-521-62570-X
  • Kohn, Marek ; "Une raison pour tout", Faber et Faber, ISBN  0-571-22393-1
  • Sandholm, William H. ; "Jeux de population et dynamique évolutive", The MIT Press, ISBN  0262195879
  • Segerstrale, Ullica ; "Oracle de la nature - La vie et l'œuvre de WD Hamilton", Oxford University Press, 2013, ISBN  978-0-19-860727-4
  • Sigmund, Karl ; "Games of Life", Penguin Books, également Oxford University Press, 1993, ISBN  0198547838
  • Vincent et Brown ; "Théorie des jeux évolutifs, sélection naturelle et dynamique darwinienne", Cambridge University Press, ISBN  0-521-84170-4

Liens externes