Basés sur Gemini 2.0, des modèles d'IA conçus pour la robotique ont été présentés par Google au mois de mars dernier, dont Gemini Robotics. Ce modèle avancé de type VLA (Vision-Language-Action) intègre des actions physiques en tant que nouvelle modalité de sortie pour le contrôle des robots et pour différents types de robots.

Google DeepMind introduit désormais le modèle Gemini Robotics On-Device qui est optimisé pour fonctionner directement sur des dispositifs robotiques, indépendamment d'un réseau de données et d'une connexion au cloud.

Des robots libres, même sans connexion internet

L'intérêt de ce modèle est donc son fonctionnement local. En intégrant l'intelligence dans la machine, Google libère les robots de la contrainte d'une connexion internet. Finis les délais de latence lorsque la machine doit « réfléchir » en envoyant des données à un serveur distant.

L'IA embarquée garantit une réactivité quasiment instantanée. Un atout de taille pour les applications où chaque seconde compte.

Imaginez des robots opérant dans des entrepôts reculés, des zones sans réseau ou des environnements sensibles comme le secteur de la santé, où la confidentialité des données visuelles traitées localement est un avantage.

Une dextérité et une adaptation surprenantes

Une capacité mise en avant avec Gemini Robotics On-Device est de généraliser ses compétences. Le modèle peut exécuter des tâches manuelles complexes, comme défaire la fermeture éclair d'un sac, plier des vêtements ou même assembler des pièces industrielles avec précision, sans avoir vu les objets ou la scène auparavant.

« Gemini Robotics On-Device offre une forte généralisation visuelle, sémantique et comportementale à travers une large gamme de scénarios de test, suit des instructions en langage naturel et accomplit des tâches nécessitant une grande dextérité. Le tout en fonctionnant directement sur le robot », résume Google DeepMind.

Le système se montre aussi incroyablement adaptable. Les développeurs peuvent l'entraîner à de nouvelles missions avec seulement 50 à 100 démonstrations, en téléopérant manuellement le robot. Initialement conçu pour les robots ALOHA, il a déjà été porté avec succès sur le robot à deux bras Franka FR3 et même sur le robot humanoïde Apollo d'Apptronik.

La sécurité, un puzzle à assembler

La question de la sécurité reste centrale. Google fournit ici un moteur puissant, le modèle VLA, mais c'est aux développeurs de mettre en place des garde-fous. Une approche à plusieurs niveaux est recommandée pour garantir une autonomie contrôlée.

Cela passe par l'intégration d'une couche de raisonnement, par exemple via l'API Live de Gemini qui inclut des filtres de sécurité, et surtout par l'implémentation de contrôleurs de bas niveau. Ces derniers agissent comme un ultime filet de sécurité physique, limitant la force ou la vitesse des mouvements du robot.

Pour l'heure, l'accès au modèle et à son kit de développement (SDK) est réservé à un groupe de testeurs triés sur le volet. Une manière de recueillir des retours avant un déploiement plus large.