Des indices découverts dans la version bêta de l'application Google confirment une ambition majeure pour Gemini : devenir un véritable agent capable d'agir. La firme travaille en effet sur une capacité nommée « screen automation », qui permettrait à son intelligence artificielle de manipuler directement l'interface de certaines applications pour exécuter des commandes. Cette évolution promet de transformer en profondeur la manière dont nous interagissons avec nos appareils au quotidien.

Comment cette automatisation de l'écran fonctionnera-t-elle concrètement ?

La fonctionnalité, sobrement intitulée « Effectuer des tâches avec Gemini », repose sur un principe d'automatisation de l'écran. Concrètement, l'IA sera capable d'analyser le contenu affiché, d'identifier les éléments interactifs comme les boutons ou les champs de texte, et d'effectuer des actions (taps, scrolls, saisies) pour accomplir une mission que vous lui aurez confiée en langage naturel. Il suffirait de demander à Gemini de commander votre plat habituel pour qu'il ouvre l'application de livraison, navigue jusqu'au restaurant, ajoute le produit au panier et valide la commande.

gemini

Cette capacité, dont les bases techniques seraient préparées dans la mise à jour Android 16 QPR3, ne sera pas universelle au départ. Google la déploiera progressivement sur une sélection d'applications partenaires triées sur le volet, probablement dans les domaines de la livraison de repas et de la réservation de VTC. L'objectif est de fluidifier des tâches répétitives qui nécessitent aujourd'hui de jongler entre plusieurs écrans et actions manuelles, grâce à une automatisation intelligente.

Quels sont les risques et les garde-fous prévus par Google ?

Conscient des dérives potentielles, Google a déjà intégré plusieurs avertissements clairs. La firme de Mountain View prévient que « Gemini peut faire des erreurs » et insiste sur le fait que l'utilisateur reste « responsable de ce qu'il fait pour vous ». Une supervision attentive sera donc de mise. Il sera possible d'interrompre le processus à tout moment pour reprendre le contrôle manuellement, garantissant que l'humain ait toujours le dernier mot sur les actions menées sur son smartphone.

Sur le plan de la confidentialité, Google indique que des captures d'écran des interactions pourront être examinées par des évaluateurs humains pour améliorer le service, mais uniquement si l'historique d'activité est activé. Il est fortement déconseillé d'utiliser cette fonction pour des tâches impliquant des informations sensibles, comme la saisie de mots de passe ou de coordonnées bancaires. La prudence sera donc de rigueur pour les opérations critiques ou urgentes.

Google Android

Quelle est la portée de cette avancée pour l'écosystème Android ?

Cette nouvelle fonctionnalité marque un pas décisif vers une véritable IA agentique, capable non plus seulement de répondre à des questions, mais d'agir concrètement dans l'environnement numérique de l'utilisateur. Là où des systèmes comme Siri Shortcuts ou Bixby Routines exigent souvent une configuration manuelle ou dépendent d'intégrations spécifiques des développeurs, l'approche de Gemini se veut plus fluide et adaptative, capable de comprendre une intention et de la traduire en une série d'actions à travers différentes applications.

Le potentiel est immense : simplifier des processus d'achat, gérer des réservations ou encore automatiser des tâches professionnelles récurrentes. Pour les développeurs, cela ouvre la voie à des interfaces plus "agent-ready", où les applications pourraient signaler des zones sécurisées pour l'automatisation. Si Google réussit à équilibrer autonomie et sécurité, cette avancée pourrait redéfinir en profondeur notre conception de l'interaction homme-machine sur les plateformes mobiles.