Une équipe de chercheurs de Maluuba, une start-up canadienne spécialisée dans le deep learning et rachetée en début d'année par Microsoft, a créé un système d'intelligence artificielle capable d'apprendre comment réaliser le score parfait au jeu d'arcade Ms. Pac-Man. Un classique des années 1980.

En s'appuyant sur une méthode d'apprentissage par renforcement pour jouer au jeu dans sa version Atari 2600, l'équipe est parvenue à atteindre le plus haut score possible de 999 990 points. Le meilleur score humain de 266 330 points a été pulvérisé.

Eu égard à un nombre de vies limité, un côte imprévisible et une grande diversité de situations rencontrées lors du jeu, Ms. Pac-Man - qui peut paraître simple en apparence - est présenté comme un véritable défi pour des méthodes avancées d'intelligence artificielle.

Maluuba explique avoir utilisé plus de 160 agents d'intelligence artificielle travaillant en parallèle et une méthode dénommée Hybrid Reward Architecture. Par exemple, des agents pour les pastilles, d'autres pour trouver une pastille spécifique ou encore d'autres pour éviter les fantômes (et des récompenses en fonction selon le principe de l'apprentissage par renforcement).

Un agent principal prend en compte les suggestions de tous les autres agents et les utilisent pour déterminer le déplacement adéquat et optimal du personnage Ms. Pac-Man. L'idée est que de nombreux agents apprennent des tâches simples plutôt qu'un seul agent d'intelligence artificielle pour une tâche très complexe.

  

Chercheur chez Maluuba, Harm Van Seijen déclare que " les meilleurs résultats ont été obtenus quand chaque agent a agi de manière très égoïste, par exemple en se focalisant seulement sur la meilleure manière d'obtenir sa pastille, alors que l'agent principal a décidé comment utiliser l'information de chaque agent pour faire le meilleur choix pour tous. "

Ce n'est pas la première fois que des classiques Atari sont un terrain de jeu pour des systèmes d'intelligence artificielle et l'apprentissage par renforcement. Cela a aussi été le cas pour DeepMind de Google.