L'époustouflante vidéo de Gemini est trompeuse

Google a fait sensation en annonçant l'arrivée de son modèle d'IA Gemini. Fruit d'une collaboration entre Google DeepMind et Google Research, il est le plus performant des grands modèles de langage du groupe. Dans sa version Ultra de plus grande taille, Gemini est le premier modèle d'IA à obtenir un score de 90 % sur le benchmark MMLU.

Gemini Ultra est ainsi capable de surpasser des experts humains en matière de compréhension massive du langage multitâche. Une aptitude dans divers domaines et pour résoudre des problèmes, avec des capacités de raisonnement mathématique.

Gemini a été conçu pour être nativement multimodal. Cela lui procure un traitement et une compréhension en simultané sur du texte, de l'image, de l'audio, de la vidéo ou encore du code. Dans une vidéo véritablement impressionnante, Google a fait la démonstration des aptitudes de Gemini.

Une vidéo trop belle pour être vraie ?

La vidéo montre par exemple comment Gemini (probablement Gemini Ultra) peut identifier et décrire des objets, comprendre un environnement et un contexte, analyser une situation et prédire de manière logique la suite d'événements.

Dans la vidéo, un utilisateur se contente d'un minimum de requêtes et tout semble particulièrement fluide. Gemini relève avec brio plusieurs défis et fait preuve de raisonnement sur ce qui lui est présenté. Toutefois, la vidéo n'est pas tout à fait conforme à la réalité.

Un certain de degré de mise en scène n'est pas étonnant, mais le titre de la vidéo évoque tout de même une prise en main de Gemini. Dans la description de la vidéo, il est indiqué que pour les besoins de la démonstration, la latence a été réduite et les réponses de Gemini ont été raccourcies pour plus de brièveté.

Des prompts bien plus détaillés

En charge de la recherche et du deep learning chez Google DeepMind, et également coresponsable de Gemini, Oriol Vinyals assure que tous les prompts de l'utilisateur et les réponses dans la vidéo sont réels. " La vidéo illustre ce à quoi pourraient ressembler les expériences utilisateur multimodales avec Gemini. Nous l'avons réalisée pour inspirer les développeurs. "

Selon Bloomberg, Google a reconnu dans un commentaire que la vidéo n'a pas été réalisée en temps réel, ni avec des prompts vocaux. Il ne s'agissait pas d'une conversation de vive voix comme dans le montage. En outre, ce sont des images fixes qui ont été présentées à Gemini.

Dans un billet de blog pour les développeurs qui revient sur les défis posés à Gemini dans la vidéo, Google revient plus amplement sur les prompts soumis à son modèle d'IA. Il s'avère qu'ils sont beaucoup plus détaillés que ne le laisse penser la vidéo. La justification d'une brièveté pour les besoins de la vidéo n'excuse pas tout, d'autant que les vrais prompts permettent d'aiguiller Gemini dans ses réponses et son analyse des situations.

La polémique naissante ne remet pas en cause les avancées réalisées par Google avec Gemini, et par rapport à ses précédents grands modèles de langage, mais la présentation grand public de la vidéo joue un jeu dangereux. La réalité n'est pas aussi révolutionnaire… pour le moment.