Google DeepMind présente une technologie d'IA pour générer des bandes sonores synchronisées avec des vidéos. En développement, elle porte le nom de V2A (video-to-audio). Google DeepMind y voit notamment un complément à son modèle Veo pour la génération de vidéos en qualité 1080p de plus d'une minute.
" V2A combine les pixels de la vidéo et des instructions textuelles en langage naturel pour générer des paysages sonores riches adaptés à l'action à l'écran. " Il est possible de générer un nombre illimité de bandes sonores pour n'importe quelle entrée vidéo.
Un point souligné est que les instructions textuelles sont facultatives. Des instructions positives ou négatives peuvent guider le modèle vers des sons spécifiques. Actuellement, la technologie n'est pas encore publiquement accessible.
Un outil encore perfectible
Pour la technologie V2A, Google DeepMind propose plusieurs exemples d'une utilisation dans un billet de blog. " V2A peut créer des effets sonores réalistes ou des dialogues qui correspondent aux personnages et au ton d'une vidéo. "
La synchronisation labiale pose encore des problèmes, tandis que la qualité audio en sortie est tributaire de la qualité vidéo en entrée.