C'est un problème qui avait été reconnu par Sam Altman. Pour ChatGPT, le patron d'OpenAI avait pointé du doigt une récente mise à jour du modèle GPT-4o, avec pour conséquence une personnalité du chatbot IA versant dans la flagornerie.

Si des correctifs à venir avaient été évoqués, la solution immédiate trouvée est finalement plus radicale. La mise à jour incriminée de GPT-4o est tout simplement annulée. Une rétrogradation a été opérée pour les utilisateurs gratuits de ChatGPT et elle sera ultérieurement effective pour tous les utilisateurs payants.

« Nous travaillons sur des correctifs supplémentaires pour le modèle de personnalité et nous vous en dirons plus dans les prochains jours », indique Sam Altman. Dans l'absolu, c'est donc le retour à une version antérieure de GPT-4o pour un comportement jugé plus équilibré.

OpenAI fait un constat d'échec

L'incident est pris très au sérieux par OpenAI. « La personnalité par défaut de ChatGPT influence profondément la façon dont vous le percevez et lui faites confiance. Les interactions flagorneuses peuvent être gênantes, déstabilisantes et source de détresse. Nous avons échoué et nous nous efforçons de rectifier le tir. »

Parmi les mesures en cours, OpenAI détaille un affinement des techniques d'entraînement de base et des prompts système pour éloigner de manière explicite le modèle de la flagornerie, en plus de la mise en place de garde-fous.

Dans le même temps, OpenAI s'engage au recueil de davantage de retours et de commentaires auprès d'utilisateurs, avant le déploiement à grande échelle de mises à jour.

Des retours à trop court terme

La mise à jour initiale avait pour but une amélioration de la personnalité par défaut pour rendre le modèle plus intuitif et efficace dans diverses tâches. Une ambition qui aurait été contrecarrée par l'influence de retours à court terme.

« Nous n'avons pas pleinement tenu compte de l'évolution des interactions des utilisateurs avec ChatGPT au fil du temps. En conséquence, GPT-4o a favorisé les réponses qui étaient excessivement positives, mais qui n'étaient pas sincères. »