Veo 2 : l'IA vidéo de Google impressionne plus que Sora d'OpenAI

En début de mois, Google Cloud a rendu disponible le modèle de génération vidéo Veo pour les clients de Vertex AI. Entre-temps, OpenAI a déployé Sora (une version nommée Sora Turbo) pour les abonnés payants de ChatGPT, sans toutefois l'intégrer à ChatGPT. Désormais, Google dévoile une nouvelle version de Veo.

« Veo 2 est capable de suivre fidèlement des instructions simples et complexes, et il simule de manière convaincante la physique du monde réel ainsi qu'un large éventail de styles visuels », écrit Google DeepMind.

Google souligne de nouveau la compréhension du langage cinématographique, mais met en avant une définition 4K et la production de vidéos de plusieurs minutes. Même si les exemples publiés sur YouTube ne durent qu'une poignée de secondes.

Sur la question des problèmes liés aux détails indésirables dans les vidéos générées, comme des doigts supplémentaires ou des objets inattendus, le modèle Veo 2 promet moins d'hallucinations. À en croire les tests internes de Google, Veo 2 surclasse Sora Turbo.

Une préférence globale en faveur de Veo 2

Des comparaisons ont été effectuées avec une définition 720p et des vidéos de quelques secondes générées par différents modèles. Des participants ont visionné un millier de prompts et leurs vidéos respectives sur MovieGenBench de Meta.

« Veo 2 obtient les meilleurs résultats en matière de préférence globale (ndlr : auprès des évaluateurs humains) et de capacité à suivre les prompts avec précision », indique Google DeepMind. Le choix en faveur de Veo 2 serait d'autant plus marqué par rapport à Sora Turbo.

Actuellement, Veo 2 est accessible via VideoFX de Google Labs (pas en Europe) et sur une liste d'attente. Les vidéos obtenues intègrent le filigrane invisible SynthID pour identifier qu'elles ont été générées par IA. Il est prévu d'étendre Veo 2 à YouTube Shorts et à d'autres produits au cours de l'année prochaine.

Une mise à niveau pour Imagen 3

Google annonce par ailleurs une mise à niveau de son modèle Imagen 3 pour la génération d'images. « Imagen 3 peut désormais restituer des styles artistiques plus variés avec une plus grande précision, du photoréalisme à l'impressionnisme, de l'abstrait à l'anime. »

Avec des détails et des textures plus riches, la mise à jour d'Imagen 3 doit aussi permettre de suivre plus fidèlement les prompts. Le déploiement a pour l'instant lieu dans ImageFX de Google Labs.

À titre expérimental, un nouvel outil Whisk voulu amusant combine le dernier modèle Imagen 3 avec les capacités de compréhension et de description visuelles de Gemini.