En attendant le Google I/O, l'IA Gemini, toujours plus humaine, fait le show

La semaine va être riche en annonces autour de l'intelligence artificielle, et particulièrement en matière d'amélioration des interactions avec les IA pour leur donner une tonalité plus humaine.

Pendant que la firme Anthropic annonce l'arrivée de son IA Claude en Europe, la startup OpenAI s'est dépêchée de dévoiler ce lundi son nouveau modèle d'IA GPT-4o avant les grandes annonces de Google ce mardi à l'occasion de l'événement Google I/O 2024.

GPT-4o permet désormais de réagir à des informations données vocalement ou par image / vidéo en plus du texte et de répondre de la même façon. Perdant sa neutralité froide des débuts, elle peut désormais prendre en compte l'intonation et la perception des émotions de l'utilisateur et s'adapter à ce contexte de façon fluide et réactive, comme s'il s'agissait d'une conversation avec un humain.

Si OpenAI a lancé cette évolution de son modèle d'IA GPT-4 dès ce lundi, c'est que Google va occuper l'espace médiatique ce mardi soir avec la tenue de son événement Google I/O qui devient au fil des années de plus en plus axé sur ses progrès en matière d'intelligence artificielle.

Gemini, future star du Google I/O 2024

Après avoir dévoilé son IA Gemini en décembre dernier, Google ne devrait pas manquer de démonstrations époustouflantes repoussant toujours plus loin les limites des IA génératives.

Sans aller encore jusqu'aux IA généralistes, l'accent est mis sur l'amélioration des interactions avec les intelligences artificielles pour rendre les échanges toujours plus fluides et naturels, jusqu'à donner l'impression d'avoir un humain face à soi.

One more day until #GoogleIO! We’re feeling ?. See you tomorrow for the latest news about AI, Search and more. pic.twitter.com/QiS1G8GBf9
— Google (@Google) May 13, 2024

Avant la présentation officielle, Google donne déjà un aperçu des nouvelles capacités de son IA en montrant dans une vidéo comment elle peut répondre à des questions posées vocalement et la façon dont elle peut interpréter ce qu'elle voit via le capteur photo d'un smartphone pour réaliser des déductions, ici la préparation de l'événement.

Illusion d'empathie et de conversation naturelle

Dans le court extrait, l'intelligence artificielle Gemini embarquée exprime ce qu'elle déduit des informations qui lui sont données oralement et visuellement (une grande salle avec de nombreux sièges, un grand écran montrant des graphiques...) et crée des interactions en répondant aux questions et en en posant elle-même comme une conversation normale seulement marquée par un petit temps de latence de 1 à 2 secondes.

On note que l'IA répond de façon très naturelle et avec des intonations, rendant la discussion plus vivante, avec des relances pour faire réagir l'utilisateur et par la même occasion obtenir des informations complémentaires pour compléter son interprétation du contexte.

S'il ne s'agit toujours pas d'une AGI mais bien d'un habillage d'une IA générative pour la rendre plus accessible et efficace, l'illusion de vie est de plus en plus saisissante, préparant une transformation profonde des assistants numériques et de la façon dont on pourra les utiliser.

OpenAI a sans doute tenté de prendre de court les géants comme Google avec l'annonce de GPT-4o mais la concurrence s'est désormais organisée et il va difficile de se distinguer ou de trouver la fenêtre de lancement idéale sans être aussitôt rattrapé.