Facebook développe un algorithme d’IA qui apprend à jouer au poker à la volée

Facebook développe un algorithme d’IA qui apprend à jouer au poker à la volée


Les chercheurs de Fb ont développé un cadre d’IA commun connu sous le nom d’apprentissage récursif basé sur les croyances (ReBeL) qui, selon eux, atteint une efficacité meilleure que l’humain dans le poker heads-up, no-limit Texas keep’em tout en utilisant beaucoup moins d’informations de zone que tout autre. AI de poker antérieure. Ils affirment que ReBeL est une étape vers le développement de stratégies communes pour les interactions multi-agents – dans différentes phrases, des algorithmes communs qui peuvent être déployés dans des environnements multi-agents à grande échelle. Les objectifs potentiels couvrent toute la gamme des enchères, des négociations et de la cybersécurité aux automobiles et véhicules autonomes.

Combiner l’étude du renforcement avec la recherche sur le coaching de mannequin IA et regarder le temps a conduit à de nombreuses avancées. Étude de renforcement est le lieu où les courtiers apprennent à atteindre leurs objectifs en maximisant les récompenses, alors que chercher est la méthode de navigation d’un état de début à un état de finalité. Par exemple, AlphaZero de DeepMind a utilisé une étude et une recherche de renforcement pour réaliser une efficacité de pointe dans les jeux vidéo de société, échecs, shogi et go. Cependant, la méthode combinatoire souffre d’une pénalité d’efficacité lorsqu’elle est utilisée pour des jeux vidéo à information imparfaite comme le poker (et même des ciseaux à papier de roche), du fait qu’elle fait beaucoup d’hypothèses qui ne sont pas valables dans ces situations. La valeur d’un mouvement donné dépend de la chance qu’il soit choisi, et plus généralement, de toute la technique de jeu.

Les chercheurs de Fb suggèrent que ReBeL donne une réparation. ReBeL s’appuie sur un travail par lequel la notion d ‘«état du sport» est élargie pour incorporer la perception des courtiers de l’état dans lequel ils se trouvent, principalement sur la base d’informations largement répandues et des polices d’assurance de différents courtiers. ReBeL entraîne deux modes IA – un vaut communauté et un couverture communauté – pour les états via l’étude de renforcement de l’auto-jeu. Il utilise chaque mode pour la recherche tout au long du jeu personnel. Le résultat est un algorithme simple et polyvalent qui, selon les chercheurs, est capable de vaincre les principaux joueurs humains dans des jeux vidéo à information imparfaite à deux joueurs à grande échelle.

À un stade excessif, ReBeL opère sur états de perception du public un peu plus que les états du monde (c’est-à-dire l’état d’un sport). Les États de perception publique (PBS) généralisent la notion de «valeur d’état» aux jeux vidéo à information imparfaite comme le poker; un PBS est une distribution aléatoire connue sur une séquence finie d’actions et d’états potentiels, également connue sous le nom de passé historique. (Les distributions de chance sont des fonctionnalités spécialisées qui donnent les possibilités d’incidence de divers résultats potentiels.) Dans les jeux vidéo à information parfaite, les PBS seront distillés jusqu’aux histoires, qui, dans les jeux vidéo à somme nulle à deux joueurs, se distillent avec succès dans les États du monde. Un PBS au poker est l’éventail de choix qu’un participant peut faire et leurs résultats étant donné une main spécifique, un pot et des jetons.

http://www.flickr.com/photos/seo/

Ci-dessus: jetons de poker.

Crédit photo: Flickr: Sean Oliver

ReBeL génère un «sous-jeu» au début de chaque sport qui est similaire au sport unique, en plus d’être enraciné dans un PBS préliminaire. L’algorithme le gagne en opérant des itérations d’un algorithme de «recherche d’équilibre» et en utilisant la communauté de valeur instruite pour approximer les valeurs à chaque itération. À titre d’étude de renforcement, les valeurs sont trouvées et ajoutées en tant qu’exemples de coaching pour la communauté de valeur, et les polices d’assurance dans le sous-jeu sont éventuellement ajoutées comme exemples pour la communauté de couverture. La méthode se répète ensuite, le PBS passant à la toute nouvelle racine de sous-jeu jusqu’à ce que la précision atteigne un seuil certain.

Lors d’expériences, les chercheurs ont évalué ReBeL sur des jeux vidéo de poker heads-up no-limit Texaskeeping’em poker, Liar’s Cube et switch endgamekeeping’em, qui est une variante du hold’em sans limite à travers laquelle chaque joueur examine ou nom des deux premiers des 4 tours d’enchères. L’équipage a utilisé jusqu’à 128 PC avec huit cartes graphiques à jouer chacun pour générer des connaissances sportives simulées, ils ont généralement randomisé les tailles de devinettes et de piles (de 5000 à 25000 jetons) tout au long de l’entraînement. ReBeL a été éduqué sur le sport complet et avait 20 000 $ à deviner envers son adversaire en fin de partie.

Les chercheurs rapportent que vis-à-vis de Dong Kim, qui est classé parmi les joueurs de poker heads-up les plus efficaces de cette planète, ReBeL a joué plus tôt que deux secondes par main sur 7500 doigts et ne voulait en aucun cas plus de 5 secondes pour un choix. En mélange, ils ont mentionné qu’il avait marqué 165 (avec un écart ordinaire de 69) millièmes de blind géant (supposition sous pression) par sport envers les personnes qu’il jouait, contrairement au système de poker précédent de Fb, Libratus, qui a atteint un maximum de 147 millièmes.

Par souci de malhonnêteté, l’équipe de Fb a décidé de publier la base de code ReBeL pour le poker. Au lieu de cela, ils ont ouvert leur implémentation pour Liar’s Cube, ce qui, selon eux, peut également être plus simple à connaître et sera plus simplement ajusté. «Nous imaginons que cela rend le sport plus approprié en tant que site Web pour l’analyse», ont-ils écrit dans un papier pré-imprimé. «Alors qu’il existe déjà des algorithmes d’IA qui peuvent obtenir une efficacité surhumaine au poker, ces algorithmes supposent généralement que les contributeurs ont une certaine variété de jetons ou utilisent des tailles de supposition sûres. Le recyclage des algorithmes pour prendre en compte des piles de puces arbitraires ou des tailles de suppositions imprévues nécessite des calculs supplémentaires par rapport au temps réel. Néanmoins, ReBeL peut calculer une couverture pour des tailles de pile arbitraires et des tailles de suppositions arbitraires en quelques secondes. »

bob

Articles similaires

Read also x