V2A : Google DeepMind dévoile un nouvel outil d'IA générative

Génération NT / Actualités / V2A : Google DeepMind dévoile un nouvel outil d'IA générative

Publié le 20 juin 2024 à 16:40 par Jérôme G.

Avec la compréhension des pixels bruts d'une vidéo et des prompts textuels en option, V2A génère des bandes sonores adaptées.

Google DeepMind présente une technologie d'IA pour générer des bandes sonores synchronisées avec des vidéos. En développement, elle porte le nom de V2A (video-to-audio). Google DeepMind y voit notamment un complément à son modèle Veo pour la génération de vidéos en qualité 1080p de plus d'une minute.

" V2A combine les pixels de la vidéo et des instructions textuelles en langage naturel pour générer des paysages sonores riches adaptés à l'action à l'écran. " Il est possible de générer un nombre illimité de bandes sonores pour n'importe quelle entrée vidéo.

Un point souligné est que les instructions textuelles sont facultatives. Des instructions positives ou négatives peuvent guider le modèle vers des sons spécifiques. Actuellement, la technologie n'est pas encore publiquement accessible.

Un outil encore perfectible

Pour la technologie V2A, Google DeepMind propose plusieurs exemples d'une utilisation dans un billet de blog. " V2A peut créer des effets sonores réalistes ou des dialogues qui correspondent aux personnages et au ton d'une vidéo. "

La synchronisation labiale pose encore des problèmes, tandis que la qualité audio en sortie est tributaire de la qualité vidéo en entrée.

Jérôme G.

Journaliste GNT spécialisé en nouvelles technologies

Cette page peut contenir des liens affiliés. Si vous achetez un produit depuis ces liens, le site marchand nous reversera une commission sans que cela n'impacte en rien le montant de votre achat. En savoir plus.

Lire les commentaires