OpenAI a officialisé le lancement de gpt-realtime, son modèle speech-to-speech le plus sophistiqué. Simultanément, l'API Realtime devient accessible à tous les développeurs. La promesse est une IA vocale plus naturelle, plus intelligente, ainsi que l'ajout de fonctionnalités pensées pour les entreprises. Le tout avec une baisse de prix.
Une intelligence vocale plus humaine et performante
Le véritable saut qualitatif de gpt-realtime réside dans sa capacité à produire un discours plus expressif et naturel. Le nouveau modèle maîtrise les intonations, l'émotion et le rythme d'une conversation humaine. Il peut même suivre des instructions très fines, comme « Parler avec empathie et un accent français ».
Cette avancée s'appuie sur des performances en nette hausse. D'après les benchmarks, gpt-realtime atteint 82,8 % de précision sur le Big Bench Audio, contre 65,6 % pour le modèle précédent de décembre 2024. L'IA ne se contente pas de mieux parler, elle écoute aussi avec plus d'acuité. Elle est capable de détecter des signaux non verbaux comme les rires, de changer de langue en pleine phrase ou de comprendre des suites alphanumériques complexes.
Pour accompagner cette évolution, OpenAI annonce deux nouvelles voix, Cedar et Marin, et met à jour les huit voix existantes pour qu'elles bénéficient des améliorations.
L'API Realtime s'ouvre à de nouveaux usages
Le modèle n'arrive pas seul. L'API Realtime, qui le fait fonctionner, se dote de plusieurs outils qui élargissent son champ d'action. Une nouveauté est la prise en charge des images. Un utilisateur peut montrer une photo ou une capture d'écran à l'agent vocal et lui poser des questions dessus, comme « Que vois-tu ? » ou « Lis le texte sur cette capture d'écran ».
Pour séduire le marché professionnel, l'API intègre maintenant des fonctionnalités clés telles que le support du protocole SIP pour connecter directement les applications vocales aux réseaux téléphoniques publics et aux centraux d'entreprise, les prompts réutilisables permettant aux développeurs de sauvegarder et réutiliser des configurations de prompts pour faciliter le déploiement d'agents vocaux.
Une stratégie agressive sur un marché concurrentiel
Avec gpt-realtime, OpenAI affiche l'ambition de s'imposer comme la référence pour les applications vocales d'entreprise. Un travail a d'ailleurs été effectué en étroite collaboration avec des clients pour entraîner le modèle sur des scénarios réels (support client, assistance personnelle et éducation).
Cette offensive se déroule sur un marché de plus en plus concurrentiel. Pour se démarquer, OpenAI mise sur la qualité de son IA et sa capacité à suivre des instructions précises. Un argument de poids pourrait être le prix. En baissant ses tarifs de 20 %, OpenAI rend sa technologie davantage accessible.