Microsoft a dévoilé ses deux premiers modèles d'IA entièrement développés en interne, MAI-Voice-1 et MAI-1-preview. Une annonce qui laisse entrevoir une stratégie visant à réduire sa forte dépendance à l'égard de son partenaire... OpenAI.
Une voix ultra-rapide et déjà partout
Le premier modèle, MAI-Voice-1, est une technologie de génération vocale permettant de créer une minute entière de discours naturel et expressif en moins d'une seconde, le tout sur un seul GPU. Ce modèle est déjà à l'œuvre dans des fonctionnalités comme Copilot Daily, où une IA récite les actualités du jour.
« La voix est l'interface du futur pour les compagnons IA », écrit Microsoft. Le modèle MAI-Voice-1 est accessible dans Copilot Labs. Il est possible d'y créer des histoires interactives ou des méditations guidées sur mesure avec une simple commande.
MAI-1-preview, le mystérieux concurrent de GPT
Le second nouveau venu est plus énigmatique. Baptisé MAI-1-preview, il s'agit du premier modèle de fondation de Microsoft, entraîné de bout en bout sur une infrastructure de près de 15 000 GPU Nvidia H100.
Conçu comme un modèle de type mixture-of-experts, il se spécialise dans le suivi d'instructions et la fourniture de réponses utiles aux requêtes du quotidien. Déjà en test public sur la plateforme d'évaluation LMArena, il sera prochainement intégré à Copilot pour gérer certaines tâches textuelles.
Vers une indépendance stratégique face à OpenAI
Cette offensive n'arrive pas par hasard. La création de la division Microsoft AI, dirigée par Mustafa Suleyman, cofondateur de DeepMind, a été perçue comme une réponse directe aux turbulences internes chez OpenAI.
L'objectif serait de se doter d'un plan B solide et d'une plus grande flexibilité. L'idée n'est pas de remplacer OpenAI du jour au lendemain, mais plutôt de pouvoir orchestrer une gamme de modèles spécialisés.
Microsoft pourra ainsi piocher dans le meilleur de ce que proposent ses équipes, ses partenaires ou même la communauté open source pour chaque situation. Comme le précise l'entreprise, « cette approche nous donne la flexibilité de fournir les meilleurs résultats à travers des millions d'interactions uniques chaque jour ».