IA et génération de vidéos réalistes : OpenAI déploie Sora en mode Turbo

Dévoilé en février, le modèle de génération de vidéos Sora est officiellement déployé par OpenAI. Entre-temps, un groupe d'experts s'est penché sur les risques associés à cette technologie d'IA générative, tandis que des artistes, des designers et des cinéastes ont eu droit à un accès anticipé.

Le mois dernier, des cinéastes ayant bénéficié de l'accès anticipé ont été à l'origine d'une fuite touchant Sora. Ils ont accusé OpenAI de se servir d'eux afin de vanter un outil utile pour les artistes, tout en dénonçant une exploitation déguisée en R&D (Recherche & Développement) non rémunérée.

C'est dans ce contexte qu'OpenAI donne le réel coup d'envoi de Sora, ou plutôt d'une version plus rapide du modèle dite Sora Turbo avec une interface dédiée et un ensemble de fonctionnalités avancées d'édition.

Pour des abonnés ChatGPT Plus ou Pro

« Vous pouvez désormais générer des vidéos entièrement nouvelles à partir d'un texte, donner vie à des images ou étendre, remixer ou mélanger des vidéos que vous possédez déjà. Nous avons développé de nouvelles interfaces pour faciliter les prompts, les contrôles créatifs et le partage avec la communauté », explique OpenAI.

Attention cependant. Même si ce n'est plus une version préliminaire, OpenAI souligne de nombreuses limitations avec Sora Turbo, y compris la génération d'effets physiques irréalistes et des difficultés pour la gestion d'actions complexes sur de longues durées. Le développement est loin d'être terminé.

Pour le moment, il n'y a pas d'accès API pour Sora. OpenAI propose un produit autonome sur Sora.com, sans intégration à ChatGPT. Il se destine aux abonnés ChatGPT Plus (50 vidéos prioritaires par mois en 720p - 1 000 crédits - et d'une durée de 5 secondes) et ChatGPT Pro (500 vidéos prioritaires en 1080p - 10 000 crédits - et de jusqu'à 20 secondes).

La disponibilité de Sora concerne de nombreux pays, mais pas la plupart des pays en Europe ni au Royaume-Uni pour l'instant. Patron et fondateur d'OpenAI, Sam Altman justifie cette décision par la nécessité de se conformer à la réglementation en vigueur, sans en préciser les détails. « Je m'attends à ce que les lancements de nouveaux produits soient retardés en Europe, et à ce que certains produits ne puissent tout simplement pas être proposés. »

Avec des garde-fous en place

Sur le plan technique, Sora repose sur un modèle de diffusion qui génère une vidéo à partir d'une vidéo de base qui ressemble à du bruit statique et la transforme progressivement en supprimant le bruit au fil des étapes.

« En donnant au modèle la possibilité de prévoir plusieurs images à la fois, nous avons résolu un problème difficile consistant à garantir qu'un sujet reste le même lorsqu'il disparaît temporairement de la vue », écrit OpenAI. Comme les modèles GPT, Sora s'appuie sur une architecture de transformateur (transformer).

Les vidéos produites avec Sora comportent des watermarks et des métadonnées C2PA pour signaler une création avec l'IA. Il existe des garde-fous en matière de contenus violents ou explicites, ainsi que pour le respect des droits d'auteur. La possibilité de générer une vidéo en utilisant une photo ou une vidéo d'une personne réelle en référence ne sera disponible que pour un sous-ensemble d'utilisateurs.