Google DeepMind dévoile deux nouveaux modèles d'IA conçus pour la robotique. Basés sur Gemini 2.0, ils doivent doter les robots d'une compréhension du monde physique.
Patron de Google et d'Alphabet, Sundar Pichai souligne des performances de pointe et la possibilité pour les robots de puiser dans les capacités multimodales de Gemini afin d'effectuer des changements à la volée et en tenant compte de leur environnement.
« Cette étape importante pose les bases de la prochaine génération de robots qui pourront être utiles dans toute une gamme d'applications. » Pour autant, Google ne va pas revenir à la robotique comme du temps où Boston Dynamics était dans son giron. Un travail est mené en collaboration avec Apptronik pour des robots humanoïdes tirant parti de Gemini 2.0.
Un modèle VLA avec Gemini Robotics
Avec Gemini Robotics, il est question d'un modèle avancé de type VLA (Vision-Language-Action) en intégrant des actions physiques en tant que nouvelle modalité de sortie pour le contrôle direct des robots et pour différents types de robots.
Gemini Robotics se concentre sur la généralité, l'interactivité et la dextérité pour permettre aux robots de s'adapter à de nouvelles situations, de comprendre les instructions en langage naturel et de manipuler des objets avec précision.
Un modèle VL avec Gemini Robotics-ER
Gemini Robotics-ER (Embodied Reasoning) est présenté comme un modèle de type VL (Vision-Language) qui améliore la compréhension spatiale de Gemini 2.0 pour les applications robotiques. « Gemini Robotics-ER permet aux roboticiens d'exécuter leurs propres programmes en utilisant le raisonnement incarné de Gemini. »
Pour Gemini Robotics-ER, un exemple donné est qu'en présentant une tasse à café, le modèle peut deviner de manière intuitive une prise à deux doigts appropriée pour la saisir et une trajectoire sûre pour s'en approcher. Le modèle prend également en charge toutes les étapes nécessaires au contrôle d'un robot, jusqu'à la génération de code.
Avec la sécurité en tête
Hormis le partenariat avec Apptronik pour les robots humanoïdes, Google DeepMind autorise un accès à des testeurs de confiance pour son modèle Gemini Robotics-ER, dont Agile Robots, Agility Robots, Boston Dynamics et Enchanted Tools.
« Alors que nous explorons le potentiel continu de l'IA et de la robotique, nous adoptons une approche holistique et multicouche pour aborder la sécurité dans nos recherches, du contrôle moteur de bas niveau à la compréhension sémantique de haut niveau », assure Google.