Après un retard à l'allumage, OpenAI annonce le déploiement du mode vocal avancé de ChatGPT. Cette fonction pour converser différemment avec le chatbot IA avait été dévoilée au mois de mai dernier. Elle s'appuie sur le modèle GPT-4o et bénéficie d'une latence réduite.

La démonstration du mode vocal avancé de ChatGPT avait fait sensation pour une conversation en temps réel plus naturelle. Il gère les interruptions à tout moment dans une discussion, identifie et répond aux émotions en analysant le ton de la voix.

OpenAI avait justifié le retard pris pour le déploiement par une nécessité d'améliorer la capacité du modèle à détecter et à refuser certains contenus, ainsi qu'un travail sur l'expérience utilisateur et l'évolution idoine de son infrastructure pour maintenir des réponses en temps réel vers des millions de personnes.

D'abord en version alpha

Reste que le déploiement est pour le moment prudent. Il est progressif auprès d'un petit groupe d'utilisateurs de ChatGPT Plus et s'effectue dans le cadre d'une version alpha. Le cas échéant, ils recevront une notification dans l'application mobile ChatGPT et un e-mail pour des instructions.

Si tout se passe comme prévu, le mode vocal avancé de ChatGPT sera disponible pour les utilisateurs de ChatGPT Plus dans le courant de l'automne prochain. Les fonctionnalités vidéo et le partage d'écran seront lancés ultérieurement.

OpenAI indique que les capacités vocales du modèle GPT-4o ont été testées avec plus d'une centaine de testeurs externes (red teamers) parlant un total de 45 langues. Le mode vocal avancé a recours à quatre voix préconfigurées qui ont été créées en collaboration avec des acteurs vocaux.

chatgpt-mode-vocal-avance

Après la polémique Scarlett Johansson

Face à une polémique, la décision avait été prise d'arrêter d'utiliser la voix dite Sky, même si OpenAI a assuré qu'elle n'avait pas été conçue pour ressembler à celle de l'actrice Scarlett Johansson.

De nouveaux filtres ont été intégrés pour le respect des droits d'auteur. Ils bloqueront les demandes de génération de contenus musicaux et audio sous copyright.

OpenAI souligne en outre que les techniques de sécurité appliquées aux textes se retrouvent pour les voix.