Dans la course effrénée à l'intelligence artificielle, Google met à disposition pour les développeurs le modèle Gemini 2.5 Computer Use, un outil spécialisé qui permet de créer des agents IA capables de manipuler des interfaces web comme le ferait un être humain.

Ce modèle peut " voir " une page web via une capture d'écran et décider de cliquer, saisir du texte ou faire défiler la page. La technologie, déjà utilisée en interne pour des projets comme Project Mariner ou pour les fonctionnalités agentiques du mode IA de la recherche Google, est désormais accessible via l'API Gemini sur Google AI Studio et Vertex AI.

Un processus itératif jusqu'à ce que la tâche soit terminée

Le fonctionnement du modèle repose sur une boucle itérative. L'outil, nommé computer_use, reçoit une requête de l'utilisateur, une capture d'écran de l'environnement actuel et un historique des actions récentes.

À partir de ces éléments, les agents IA analysent la situation et génèrent une action à exécuter, comme cliquer sur un bouton ou taper un mot de passe dans le champ dédié.

Le code côté client exécute alors l'action. Immédiatement après, une nouvelle capture d'écran de l'interface modifiée est renvoyée au modèle, qui recommence le cycle jusqu'à ce que la tâche soit entièrement terminée.

Google précise que le système prend en charge 13 actions de base, incluant la navigation vers une URL, le glisser-déposer, l'utilisation de combinaisons de touches ou encore le survol du curseur. Pour les actions sensibles, comme effectuer un achat, une confirmation de l'utilisateur final est systématiquement requise.

Qu'en est-il de ses performances face à la concurrence ?

Google affirme que son modèle " surpasse les principales alternatives sur de multiples benchmarks de contrôle web et mobile ". Dans un contexte où des concurrents comme OpenAI et Anthropic ont déjà présenté des capacités similaires, la performance est un enjeu clé.

Selon les benchmarks partagés par Google, incluant des évaluations menées par des tiers comme Browserbase, le modèle Gemini 2.5 Computer Use offrirait une précision de pointe tout en maintenant une latence plus faible que ses rivaux.

Si le modèle est principalement optimisé pour les navigateurs web, l'entreprise souligne qu'il montre également " de fortes promesses pour les tâches de contrôle d'interface utilisateur mobile ".

Reste toutefois des limites et Google précise que son modèle " n'est pas encore optimisé pour le contrôle au niveau du système d'exploitation de bureau ", se concentrant pour l'instant uniquement sur le navigateur.

Des cas d'usage et des mesures de sécurité

Les équipes de Google utilisent déjà des versions du modèle en interne pour accélérer le développement logiciel grâce à l'automatisation des tests d'interface utilisateur.

Les premiers testeurs du programme d'accès anticipé l'ont aussi employé pour créer des assistants personnels, automatiser des flux de travail complexes, en plus de tests d'interface.

Google a intégré plusieurs garde-fous. Chaque action proposée est évaluée avant son exécution. Des instructions système via l'API Gemini permettent aux développeurs d'exiger une confirmation de l'utilisateur pour certaines actions à haut risque, comme celles pouvant compromettre la sécurité d'un système ou contourner un CAPTCHA.