Plutôt que de viser la puissance brute, Mistral AI se concentre sur l'efficacité et la spécialisation. Une nouvelle démonstration avec les modèles de transcription vocale (speech-to-text) Voxtral Transcribe 2 : Voxtral Mini Transcribe V2 et Voxtral Realtime.
Quelles sont les performances de ces nouveaux modèles ?
Voxtral Mini Transcribe V2 affiche un taux d'erreur de 4 % pour un coût de 0,003 dollar par minute. Selon Mistral AI, ce modèle surpasse des concurrents comme GPT-4o mini Transcribe et Gemini 2.5 Flash en précision.
Il est environ trois fois plus rapide que Scribe v2 d'ElevenLabs, " tout en offrant une qualité équivalente pour un cinquième du prix ". Voxtral Mini Transcribe V2 peut traiter des fichiers audio allant jusqu'à 3 heures.
Voxtral Realtime est conçu pour l'instantanéité. Avec une latence configurable jusqu'à moins de 200 ms, il s'adresse à des agents vocaux et des applications en temps réel.
Publié en open source sous licence Apache 2.0, ce modèle de 4 milliards de paramètres peut être déployé directement sur les appareils des utilisateurs. Une garantie en matière de confidentialité.
Avec des fonctionnalités avancées
Voxtral Mini Transcribe V2 intègre des fonctionnalités avancées pour les usages professionnels. La diarisation des locuteurs permet d'identifier " qui a dit quoi et quand " dans une réunion ou un appel. Le modèle supporte également l'horodatage au mot près.
Une autre capacité est le " context biasing ", qui permet de guider le modèle en lui fournissant jusqu'à 100 mots ou expressions spécifiques. Cette option est utile pour la transcription correcte de noms propres, de jargon technique ou de vocabulaire propre à un secteur d'activité.
Les deux modèles sont multilingues et prennent en charge 13 langues, dont le français, l'anglais, l'espagnol et le chinois.