Après Computer Use d'Anthropic ou encore Projet Mariner de Google, c'est au tour d'OpenAI de dévoiler un agent IA capable de réaliser des tâches confiées par l'utilisateur de manière autonome. En l'occurrence, Operator a recours à son propre navigateur pour automatiser des tâches en ligne.

Suite à la description d'une tâche souhaitée, Operator (actuellement en research preview) peut aller sur le Web et interagir avec des pages comme le ferait un humain (faire défiler des pages, cliquer, saisir du texte). OpenAI évoque en particulier des tâches répétitives dans le navigateur, comme remplir des formulaires, commander des courses, réserver un restaurant, planifier des vacances.

Operator s'appuie sur un modèle dénommé Computer-Using Agent (CUA) qui combine les capacités de vision de GTP-4o - interpréter les captures d'écrans - avec un raisonnement avancé grâce à l'apprentissage par renforcement. CUA est entraîné pour interagir avec les interfaces graphiques, à savoir les boutons, les menus et les champs de texte qui sont vus à l'écran.

operator-openai

Avec la supervision de l'utilisateur

OpenAI insiste sur le fait que l'utilisateur garde le contrôle. Confronté à un Captcha, un champ de saisie de mot de passe ou une interface complexe qui le fait buter, Operator s'arrête et sollicite l'utilisateur pour prendre le relais.

Un utilisateur pourra ainsi être amené à terminer une tâche lui-même, mais il pourra également fournir à Operator des informations manquantes et lui redonner la main pour poursuivre l'exécution de la tâche. Compte tenu de son statut en développement, Operator refusera par contre de manière proactive certaines tâches sensibles, dont les transactions financières.

Pour le moment, OpenAI souligne en outre qu'Operator ne peut pas gérer de manière fiable de nombreuses tâches complexes ou spécialisées. Les exemples cités sont la création de diaporamas détaillés, la gestion de systèmes de calendrier complexes, l'interaction avec des interfaces web hautement personnalisées ou non standard.

Un lancement prudent d'Operator

« Operator transforme l'IA d'un outil passif en un participant actif de l'écosystème numérique. » OpenAI indique avoir travaillé avec des entreprises comme DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack et Uber pour « garantir qu'Operator répond aux besoins du monde réel tout en respectant les normes établies ».

Sur operator.chatgpt.com, le lancement d'Operator en research preview a lieu aux États-Unis et dans le cadre de l'onéreux abonnement ChatGPT Pro. Ultérieurement, il est prévu d'étendre Operator à d'autres abonnements payants et d'intégrer ses fonctionnalités directement dans ChatGPT. Avant, OpenAI dit vouloir être certain de sa sécurité et de sa facilité d'utilisation à grande échelle.

N.B. : Source images : OpenAI - TechCrunch.