Lors de la conférence Meta Connect 2023, le métavers a été assez discret. Meta a préféré mettre en avant la réalité mixte avec le Meta Quest 3, des expériences basées sur l'IA (Meta AI et personnages IA notamment), ou encore les lunettes connectées Ray-Ban Meta.

C'est toutefois " dans le métavers " que Mark Zuckerberg a échangé à plusieurs centaines de kilomètres de distance avec Lex Fridman pour le podcast de ce dernier (Lex Fridman Podcast). Équipés d'un casque Meta Quest Pro, les deux interlocuteurs étaient représentés par des avatars photoréalistes en 3D.

L'effet obtenu est bluffant, sans commune mesure avec les avatars de type cartoon sur Horizon Worlds qui ont pu susciter quelques railleries. C'est une démonstration probante des Codec Avatars sur lesquels travaillent Meta depuis plusieurs années. Il s'agit encore d'un projet de recherche.

Avec les expressions faciales en temps réel

En s'appuyant sur une technologie de vision par ordinateur et des systèmes de machine learning, l'enjeu est de créer automatiquement des représentations numériques extrêmement réalistes, tant au niveau de l'apparence que de la précision des mouvements d'une personne en temps réel.

Le patron et fondateur de Meta explique qu'un modèle informatique du visage et du corps a été obtenu, y compris pour les différentes expressions faciales d'une personne. Le casque entre en action pour la détection des expressions et " l'envoi d'une version codée de ce à quoi vous êtes censé ressembler. "

" En plus d'être photoréaliste, cette version de vous est beaucoup plus efficace en matière de bande passante que la transmission d'une vidéo complète ou d'une vidéo immersive en 3D d'une scène entière ", souligne Mark Zuckerberg.

Un processus de création à simplifier

Reste que pour le moment, la création de ce type d'avatar nécessite des heures de capture d'images et audio pour une modélisation en laboratoire, avec du matériel spécialisé et personnalisé, puis plusieurs jours de traitement des données afin de générer l'avatar final.

Sans précision sur la temporalité, Mark Zuckerberg indique que l'objectif est de pouvoir effectuer un scan très rapide à l'aide d'un smartphone, avec un certain nombre d'expressions faciales à réaliser et en prononçant quelques phrases. " L'ensemble du processus ne devrait durer que deux ou trois minutes, et produire quelque chose qui soit de la qualité de ce que nous avons à l'heure actuelle. "

Pour Mark Zuckerberg, il est question de pouvoir donner un sentiment de présence dans la réalité virtuelle et augmentée. Par le passé, il aurait plutôt dit dans le métavers...