GPT-4o : et OpenAI donna à l'IA la voix et la vue

Ce n'est finalement pas la nouvelle évolution GPT-5 ni un moteur de recherche enrichi d'IA qui a été annoncé ce lundi par OpenAI mais un modèle d'IA avec lequel il sera beaucoup plus naturel d'échanger.

GPT-4o (o pour Omni) reste dérivé de l'actuel modèle GPT-4 mais il n'oblige plus désormais à passer par des prompts pour répondre aux requêtes. Cette variante peut accepter n'importe quelle combinaison de texte, audio et image et fournir une réponse de la même façon.

Il devient donc possible de parler à l'IA en lui dictant des requêtes plutôt que de les écrire et l'inteligence artificielle peut répondre de même, alimentant une conversation et simplifiant la façon d'interagir.

Humaniser l'interaction avec les machines

En offrant des performances similaires à GPT-4 Turbo et de nouvelles optimisations pour améliorer sa réactivité, OpenAI affirme que son modèle d'IA peut répondre à une question en 320 millisecondes de moyenne, c'est à dire dans le même temps qu'une conversation humaine.

GPT-4 permettait déjà de passer des requêtes en audio mais le temps de traitement demandait plusieurs secondes en pasant par plusieurs modèles d'IA et avec beaucoup d'opérations intermédiaires qui faisaient perdre de précieuses informations, notamment sur le ton et l'expression d'émotions.

Avec GPT-4o, l'interaction avec l'IA passe par un unique réseau neuronal et peut se faire dans un mode de conversation naturelle permettant en plus une adaptation selon le ton donné aux requêtes et les émotions exprimées de l'utilisateur, de la même façon qu'un humain répond différemment selon le ressenti vis à vis de son interlocuteur.

Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN

Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx
— OpenAI (@OpenAI) May 13, 2024

Le modèle d'IA reste le plus performant avec des requêtes en anglais mais OpenAI indique que de solides améliorations ont été apportées pour d'autres langues. Du côté de la sécurité du modèle d'IA, la firme indique avoir ajouté des filtres spécifiques pour l'expression de contenus vocaux de GPT-4o, tout en ayant bien conscience que les requêtes audio génèrent de nouveaux risques.

Une équipe d'experts continue d'encadrer les biais, hallucinations et désinformations que peut générer l'IA, avec une gestion du risque à mesure qu'il émerge.

GTP-4o sera accessible à tous

Outre la capacité de GPT-4o de savoir interpréter les intonations de la voix ou le contexte d'une image, la firme dirigée par Sam Altman s'attache à ce que ce nouveau produit soit disponible au plus grand nombre.

GPT-4o est ainsi accessible aux utilisateurs gratuits de ChatGPT, les détenteurs d'un abonnement payant profitant d'une plus grande réactivité de l'IA. Ce choix d'une ouverture n'est sans doute pas aussi altruiste qu'il est présenté, le modèle d'IA ayant besoin de se gaver des données des utilisateurs pour fonctionner et s'améliorer.

L'annonce de ce lundi est faite juste avant l'événement annuel Google I/O durant laquelle Alphabet va présenter ses propres innovations en matière d'IA dans quelques heures. Certaines démonstrations de GPT-4o rappellent d'ailleurs celles que Google effectuait pour sa propre IA Gemini en décembre dernier.