OpenAI intègre une nouvelle fonctionnalité de génération d'images directement dans ChatGPT et grâce à son modèle GPT-4o qui est nativement multimodal. Il s'agit d'un changement d'ampleur par rapport à DALL-E 3 et un modèle de diffusion pour reconstruire des images à partir de prompts textuels.
Une réelle mise à niveau
Selon OpenAI, la génération d'images GPT-4o excelle dans le rendu précis du texte au sein des images et suit fidèlement les instructions des utilisateurs, sachant que GPT-4o peut traiter entre 10 et 20 objets différents. En outre, elle exploite la vaste base de connaissances propre à 4o et le contexte des conversations.
La transformation d'images soumises est également de la partie. Au-delà d'un puissant outil d'édition, les images téléversées pour servir d'inspiration aux créations qui se déclinent dans une multitude de formats.
Si GTP-4o constitue une avancée majeure pour la génération d'images dans ChatGPT, OpenAI souligne toutefois des limitations et des points à améliorer. Hormis le risque d'hallucinations, le modèle peut par exemple éprouver des difficultés avec la restitution d'informations détaillées dans une très petite taille et le rendu de texte multilingue.
Sans watermark visuel
Il n'y a pas de filigranes (watermarks) afin d'indiquer de manière visuelle que les images sont générées par IA. Cela ne signifie évidemment pas l'absence de dispositions.
OpenAI a mis en place plusieurs mesures de sécurité, dont le blocage des requêtes qui enfreignent ses politiques de contenu. Des restrictions accrues s'appliquent aux images de personnes réelles, en particulier concernant la nudité et la violence.
Toutes les images générées comprennent des métadonnées C2PA pour l'identification de leur origine (GPT-4o), tandis qu'un outil de recherche interne permet de vérifier si un contenu provient du modèle. Un modèle de raisonnement a également été entraîné pour interpréter et appliquer les spécifications de sécurité.
Un avant-goût pour les utilisateurs gratuits de ChatGPT
La génération d'images avec GPT-4o est déployée progressivement pour les utilisateurs Plus, Pro, Team et Free en tant que générateur d'images par défaut dans ChatGPT. Les utilisateurs gratuits pourront générer jusqu'à trois images par jour.
Il sera possible de générer des images avec ChatGPT en demandant au modèle de créer une image avec les détails souhaités, ou en sélectionnant une option dédiée. En fonction de la complexité des instructions, ChatGPT pourra prendre jusqu'à deux minutes pour générer une image.
La nouvelle génération d'images est aussi disponible dans Sora, tandis que les développeurs y auront accès via l'API au cours des prochaines semaines. Il sera par ailleurs toujours possible de générer des images avec DALL-E en utilisant DALL-E GPT.