AlphaZéro - AlphaZero

AlphaZero est un programme informatique développé par la société de recherche en intelligence artificielle DeepMind pour maîtriser les jeux d' échecs , de shogi et de go . Cet algorithme utilise une approche similaire à AlphaGo Zero .

Le 5 décembre 2017, l'équipe DeepMind a publié une préimpression présentant AlphaZero, qui, dans les 24 heures suivant l'entraînement, a atteint un niveau de jeu surhumain dans ces trois jeux en battant les programmes champions du monde Stockfish , elmo et la version de trois jours d'AlphaGo Zero. . Dans chaque cas, il a utilisé des unités de traitement tensoriel personnalisées (TPU) que les programmes Google ont été optimisés pour utiliser. AlphaZero a été formé uniquement via le "self-play" en utilisant 5 000 TPU de première génération pour générer les jeux et 64 TPU de deuxième génération pour former les réseaux de neurones , le tout en parallèle , sans accès aux livres d'ouverture ou aux tables de fin de partie . Après quatre heures d'entraînement, DeepMind a estimé qu'AlphaZero jouait aux échecs avec un classement Elo plus élevé que Stockfish 8 ; après 9 heures d'entraînement, l'algorithme a vaincu Stockfish 8 dans un tournoi de 100 matchs contrôlé dans le temps (28 victoires, 0 défaite et 72 nuls). L'algorithme entraîné a joué sur une seule machine avec quatre TPU.

L'article de DeepMind sur AlphaZero a été publié dans la revue Science le 7 décembre 2018. En 2019, DeepMind a publié un nouvel article détaillant MuZero , un nouvel algorithme capable de généraliser le travail d'AlphaZero, jouant à la fois à Atari et à des jeux de société sans connaître les règles ou les représentations du Jeu.

Relation avec AlphaGo Zero

AlphaZero (AZ) est une variante plus généralisée de l' algorithme AlphaGo Zero (AGZ) et est capable de jouer au shogi et aux échecs ainsi qu'au Go . Les différences entre AZ et AGZ incluent :

  • AZ a des règles codées en dur pour définir les hyperparamètres de recherche .
  • Le réseau de neurones est désormais mis à jour en permanence.
  • Le go (contrairement aux échecs) est symétrique sous certaines réflexions et rotations ; AlphaGo Zero a été programmé pour tirer parti de ces symétries. AlphaZero ne l'est pas.
  • Les échecs peuvent se terminer par un match nul contrairement au Go ; AlphaZero prend donc en compte la possibilité d'un match nul.

Stockfish et elmo

En comparant les recherches par arborescence de Monte Carlo , AlphaZero ne recherche que 80 000 positions par seconde aux échecs et 40 000 au shogi, contre 70 millions pour Stockfish et 35 millions pour elmo. AlphaZero compense le nombre inférieur d'évaluations en utilisant son réseau de neurones profonds pour se concentrer de manière beaucoup plus sélective sur la variation la plus prometteuse.

Entraînement

AlphaZero a été formé uniquement via l'auto-jeu, en utilisant 5 000 TPU de première génération pour générer les jeux et 64 TPU de deuxième génération pour former les réseaux de neurones . En parallèle, l'AlphaZero en formation a été périodiquement comparé à son indice de référence (Stockfish, elmo ou AlphaGo Zero) dans de brefs jeux d'une seconde par mouvement pour déterminer la progression de l'entraînement. DeepMind a jugé que les performances d'AlphaZero dépassaient la référence après environ quatre heures de formation pour Stockfish, deux heures pour elmo et huit heures pour AlphaGo Zero.

Résultats préliminaires

Résultat

Échecs

Dans le match d'échecs d'AlphaZero contre Stockfish 8 ( champion du monde TCEC 2016 ), chaque programme a reçu une minute par coup. Stockfish s'est vu allouer 64 threads et une taille de hachage de 1 Go, un paramètre que Tord Romstad de Stockfish a par la suite qualifié de sous-optimal. AlphaZero a été entraîné aux échecs pendant un total de neuf heures avant le match. Pendant le match, AlphaZero a fonctionné sur une seule machine avec quatre TPU spécifiques à l'application . En 100 matchs à partir de la position de départ normale, AlphaZero a remporté 25 matchs en tant que Blancs, en a remporté 3 en tant que Noirs et a tiré les 72 restants. Dans une série de douze matchs de 100 matchs (avec des contraintes de temps ou de ressources non spécifiées) contre Stockfish à partir du 12 ouvertures humaines les plus populaires, AlphaZero a remporté 290, a fait match nul 886 et a perdu 24.

Shogi

AlphaZero s'est entraîné au shogi pendant un total de deux heures avant le tournoi. En 100 matchs de shogi contre elmo (version du tournoi World Computer Shogi Championship 27 été 2017 avec recherche YaneuraOu 4.73), AlphaZero a gagné 90 fois, perdu 8 fois et fait match nul deux fois. Comme dans les jeux d'échecs, chaque programme disposait d'une minute par coup, et elmo disposait de 64 threads et d'une taille de hachage de 1 Go.

Aller

Après 34 heures d'auto-apprentissage du Go et contre AlphaGo Zero, AlphaZero a remporté 60 matchs et en a perdu 40.

Une analyse

DeepMind a déclaré dans sa prépublication : « Le jeu d'échecs a représenté le summum de la recherche sur l'IA sur plusieurs décennies. Des programmes de pointe sont basés sur des moteurs puissants qui recherchent plusieurs millions de positions, tirant parti de l'expertise artisanale du domaine et des adaptations de domaine sophistiquées. AlphaZero est un algorithme générique d' apprentissage par renforcement - conçu à l'origine pour le jeu de go - qui a obtenu des résultats supérieurs en quelques heures, en recherchant mille fois moins de positions, sans aucune connaissance du domaine à l'exception des règles." Demis Hassabis de DeepMind , un joueur d'échecs lui-même, a qualifié le style de jeu d'AlphaZero d'"étranger" : il gagne parfois en offrant des sacrifices contre-intuitifs, comme offrir une reine et un fou pour exploiter un avantage de position. "C'est comme les échecs d'une autre dimension."

Compte tenu de la difficulté aux échecs de forcer une victoire contre un adversaire fort , le résultat +28 –0 =72 est une marge de victoire significative. Cependant, certains grands maîtres, tels que Hikaru Nakamura et le développeur de Komodo Larry Kaufman , ont minimisé la victoire d'AlphaZero, arguant que le match aurait été plus serré si les programmes avaient eu accès à une base de données d' ouverture (puisque Stockfish a été optimisé pour ce scénario). Romstad a en outre souligné que Stockfish n'était pas optimisé pour les mouvements à durée fixe et que la version utilisée datait d'un an.

De même, certains observateurs de shogi ont fait valoir que la taille de hachage d'elmo était trop faible, que les paramètres de démission et les paramètres "EnteringKingRule" (cf. shogi § Entering King ) pouvaient avoir été inappropriés, et qu'elmo est déjà obsolète par rapport aux programmes plus récents.

Réaction et critique

Les journaux indiquaient que l'entraînement aux échecs n'avait pris que quatre heures : "Il a été géré en un peu plus que le temps entre le petit-déjeuner et le déjeuner." Wired a présenté AlphaZero comme "le premier champion de jeu de société IA polyvalent". L'experte en IA Joanna Bryson a noté que le « talent de Google pour la bonne publicité » le mettait en position de force face aux challengers. "Il ne s'agit pas seulement d'embaucher les meilleurs programmeurs. C'est aussi très politique, car cela contribue à rendre Google aussi fort que possible lors des négociations avec les gouvernements et les régulateurs qui examinent le secteur de l'IA."

Les grands maîtres d'échecs humains ont généralement exprimé leur enthousiasme pour AlphaZero. Le grand maître danois Peter Heine Nielsen a comparé la pièce d'AlphaZero à celle d'une espèce extraterrestre supérieure. Le grand maître norvégien Jon Ludvig Hammer a qualifié le jeu d'AlphaZero d'"échec d'attaque fou" avec une profonde compréhension de la position. L'ancien champion Garry Kasparov a déclaré : "C'est un exploit remarquable, même si nous aurions dû nous y attendre après AlphaGo."

Le grand maître Hikaru Nakamura a été moins impressionné et a déclaré : « Je n'accorde pas nécessairement beaucoup de crédibilité aux résultats simplement parce que je crois comprendre qu'AlphaZero utilise essentiellement le superordinateur de Google et que Stockfish ne fonctionne pas sur ce matériel ; Stockfish fonctionnait essentiellement sur ce que serait mon ordinateur portable. Si vous voulez avoir un match comparable, vous devez également faire tourner Stockfish sur un superordinateur. "

Le meilleur joueur d'échecs par correspondance américain Wolff Morrow n'était pas non plus impressionné, affirmant qu'AlphaZero ne ferait probablement pas les demi-finales d'une compétition équitable telle que TCEC où tous les moteurs jouent sur un matériel égal. Morrow a en outre déclaré que bien qu'il ne soit peut-être pas en mesure de battre AlphaZero si AlphaZero jouait des ouvertures nulles telles que la Défense Petroff , AlphaZero ne serait pas non plus en mesure de le battre dans un jeu d' échecs par correspondance .

Motohiro Isozaki, l'auteur de YaneuraOu, a noté que bien qu'AlphaZero ait largement battu elmo, la cote d'AlphaZero dans le shogi a cessé de croître à un point qui est au plus 100~200 plus élevé que elmo. Cet écart n'est pas si élevé, et elmo et d'autres logiciels shogi devraient être en mesure de rattraper leur retard en 1 à 2 ans.

Résultats finaux

DeepMind a répondu à de nombreuses critiques dans sa version finale de l'article, publiée en décembre 2018 dans Science . Ils ont en outre précisé qu'AlphaZero ne fonctionnait pas sur un superordinateur ; il a été formé à l'aide de 5 000 unités de traitement tensoriel (TPU), mais ne fonctionnait que sur quatre TPU et un processeur à 44 cœurs lors de ses matchs.

Échecs

Dans les résultats finaux, la version 8 de Stockfish s'est déroulée dans les mêmes conditions que lors de la superfinale du TCEC : 44 cœurs de processeur, des bases de table de fin de partie Syzygy et une taille de hachage de 32 Go. Au lieu d'un contrôle de temps fixe d'un coup par minute, les deux moteurs disposaient de 3 heures plus 15 secondes par coup pour terminer le jeu. Dans un match de 1000 matchs, AlphaZero a gagné avec un score de 155 victoires, 6 défaites et 839 nuls. DeepMind a également joué une série de jeux en utilisant les positions d'ouverture du TCEC ; AlphaZero a également gagné de manière convaincante. Stockfish avait besoin d'une cote de 10 pour 1 pour correspondre à AlphaZero.

Shogi

Semblable à Stockfish, Elmo a couru dans les mêmes conditions que lors du championnat CSA 2017. La version d'Elmo utilisée était WCSC27 en combinaison avec YaneuraOu 2017 Early KPPT 4.79 64AVX2 TOURNAMENT. Elmo fonctionnait sur le même matériel que Stockfish : 44 cœurs de processeur et une taille de hachage de 32 Go. AlphaZero a remporté 98,2% des parties en jouant aux noirs (qui joue en premier au shogi) et 91,2% au total.

Réactions et critiques

Les grands maîtres humains étaient généralement impressionnés par les matchs d'AlphaZero contre Stockfish. L'ancien champion du monde Garry Kasparov a déclaré que c'était un plaisir de regarder AlphaZero jouer, d'autant plus que son style était ouvert et dynamique comme le sien.

Dans la communauté des échecs informatiques, le développeur de Komodo , Mark Lefler, l'a qualifié de "réalisation assez étonnante", mais a également souligné que les données étaient anciennes, car Stockfish avait gagné beaucoup de force depuis janvier 2018 (lors de la sortie de Stockfish 8). Le développeur Larry Kaufman a déclaré qu'AlphaZero perdrait probablement un match contre la dernière version de Stockfish, Stockfish 10, dans les conditions du Top Chess Engine Championship (TCEC). Kaufman a fait valoir que le seul avantage des moteurs basés sur un réseau de neurones était qu'ils utilisaient un GPU, donc s'il n'y avait pas de considération pour la consommation d'énergie (par exemple dans un concours de matériel égal où les deux moteurs avaient accès au même CPU et GPU), alors n'importe quoi le GPU obtenu était "gratuit". Sur cette base, il a déclaré que le moteur le plus puissant était probablement un hybride avec des réseaux de neurones et une recherche alpha-bêta standard .

AlphaZero a inspiré la communauté des échecs informatiques pour développer Leela Chess Zero , en utilisant les mêmes techniques qu'AlphaZero. Leela a disputé plusieurs championnats contre Stockfish, où il a montré une force à peu près similaire à celle de Stockfish.

En 2019, DeepMind a publié MuZero , un système unifié qui jouait d'excellents échecs, shogi et go, ainsi que des jeux dans l' environnement d'apprentissage Atari , sans être préprogrammé avec leurs règles.

Voir également

Remarques

Les références

Liens externes