Microsoft Research lève le voile sur Fara-7B, son premier petit modèle de langage (SLM) qualifié d'agentique et spécifiquement conçu pour l'utilisation d'un ordinateur. Il entre dans la catégorie des modèles CUA (Computer Use Agent) capables d'utiliser des interfaces comme la souris et le clavier, afin de réaliser des actions pour le compte de l'utilisateur.

Comment Fara-7B parvient-il à voir et agir sur un écran ?

Le fonctionnement de Fara-7B repose sur une approche qui imite la perception humaine. Le modèle " perçoit visuellement une page web " et prend des décisions pour effectuer des actions comme faire défiler, taper du texte ou cliquer sur des coordonnées précises.

Microsoft insiste sur le fait qu'il " n'utilise pas de modèles séparés pour analyser l'écran, ni d'informations supplémentaires ". Cette méthode permet à ces agents IA d'interagir avec l'ordinateur de la même manière qu'un être humain, en se basant uniquement sur ce qui est visible.

Quelles sont ses performances face aux modèles plus imposants ?

Avec seulement 7 milliards de paramètres, Fara-7B se positionne comme un modèle particulièrement efficace. Microsoft affirme qu'il " atteint des performances de pointe dans sa catégorie de taille et est compétitif face à des systèmes agentiques plus grands et plus gourmands en ressources ".

Des évaluations sur des benchmarks comme WebVoyager montrent que Fara-7B surpasse même des modèles bien plus grands, y compris des versions de GPT-4o configurées pour la navigation web.

Cette efficacité rend possible l'exécution de l'IA directement sur l'appareil, sans dépendre d'une connexion au cloud.

Une version expérimentale pour le moment 

L'un des principaux atouts de Fara-7B est donc sa capacité à fonctionner localement. Cette exécution entraîne une latence réduite et une meilleure confidentialité.

Bien qu'il s'agisse d'une version expérimentale, que Microsoft recommande de tester dans un environnement de sandbox, le modèle est déjà disponible sur Microsoft Foundry et Hugging Face.

Une version optimisée est également prévue pour les Copilot+ PC, accessible via l'AI Toolkit de Visual Studio Code.