Voxtral : un premier modèle audio pour Mistral AI

La start-up française Mistral AI dévoile un nouveau modèle d'IA baptisé Voxtral. Il s'attaque au marché de la reconnaissance vocale et plus globalement la voix, avec la promesse de performances de pointe en open source.

« La voix a été la première interface de l'humanité. Bien avant l'écriture, elle nous a permis de partager des idées, de coordonner le travail et de tisser des liens. À mesure que les systèmes numériques gagnent en capacités, la voix redevient notre forme la plus naturelle d'interaction homme-machine », écrit Mistral AI.

Bien plus qu'une simple transcription

Une force de Voxtral réside dans sa polyvalence. Ce modèle propose nativement des fonctionnalités de compréhension sémantique. Il peut répondre à des questions sur un fichier audio, générer des résumés structurés ou encore déclencher des fonctions et des appels d'API à partir d'une simple instruction vocale.

Capable de gérer des enregistrements jusqu'à 40 minutes et de détecter automatiquement plusieurs langues (français, anglais, espagnol, allemand...), il s'adapte à une multitude de cas d'usage.

De telles capacités font de cette IA vocale un outil pertinent pour analyser et exploiter des contenus audio.

Des performances qui bousculent la hiérarchie ?

Sur les benchmarks, Voxtral surpasse l'actuelle référence open source, Whisper d'OpenAI, pour l'ensemble des tests de transcription.

Il se montre également compétitif face aux modèles Gemini 2.5 Flash (Google) et GPT-4o mini (OpenAI), tout en affichant des résultats supérieurs à Scribe d'ElevenLabs sur certains segments.

Le nerf de la guerre, c'est aussi le prix. Avec un tarif API démarrant à 0,001 $ la minute, Mistral AI propose une solution jusqu'à deux fois moins chère que ses concurrents directs.

Une accessibilité pensée pour tous

Mistral AI a rendu son modèle disponible via plusieurs canaux. Les développeurs peuvent télécharger les deux versions (Small 24B et Mini 3B ; 24 milliards et 3 milliards de paramètres) directement sur Hugging Face pour une utilisation locale ou sur des serveurs privés.

Une API est aussi proposée pour une intégration simplifiée dans n'importe quelle application, tandis que le grand public pourra bientôt essayer Voxtral dans le mode vocal de l'assistant conversationnel Le Chat.

Pour les entreprises aux besoins spécifiques, des options de déploiement privé, de personnalisation et de support avancé sont aussi prévues, ouvrant la voie à des applications dans des secteurs comme le médical ou le juridique.