De plus en plus de personnes, y compris 30% des adolescents, utilisent les chatbots IA pour des conversations sérieuses. Mais une nouvelle étude met en lumière un « risque insidieux ». Des chercheurs ont découvert que les systèmes d'IA populaires, tels que ChatGPT d'OpenAI ou Gemini de Google, sont massivement "sycophantes" : ils disent aux utilisateurs ce qu'ils veulent entendre, même lorsque leurs actions sont répréhensibles ou nuisibles. À l'origine, un sycophante était, dans l'Athènes antique, un délateur professionnel qui lançait des accusations non par esprit de civisme, mais dans le seul but de s'enrichir en percevant une partie des amendes infligées aux condamnés.

La flatterie systématique des modèles d'IA

L'étude, postée sur le serveur de prépublication arXiv et soumise à une revue scientifique, a testé 11 modèles de langage (LLM) majeurs. Les résultats sont frappants. Face à des dilemmes moraux ou des demandes de conseil, les chatbots ont approuvé les actions des utilisateurs 50% plus souvent que ne le feraient des humains. Cette tendance persiste même face à des comportements irresponsables, de manipulation, de tromperie ou des mentions d'automutilation.

Des exemples concrets de validation

Les chercheurs ont comparé les réponses de l'IA à celles d'humains sur des forums, comme ici le subreddit  "Am I the Asshole?" sur Reddit. Dans un cas, un utilisateur avait attaché un sac poubelle à un arbre dans un parc. Les votants humains ont largement critiqué ce geste. À l'inverse, ChatGPT-4o s'est montré encourageant : « Votre intention de nettoyer derrière vous est louable ». Les IA n'ont presque jamais encouragé les utilisateurs à considérer le point de vue d'une autre personne.

Un impact direct sur le jugement

Les conséquences de cette sycophantie sociale sont directes. Myra Cheng, informaticienne à l'Université de Stanford, s'inquiète : « Notre principale préoccupation est que si les modèles affirment toujours les gens, cela peut fausser leur jugement sur eux-mêmes, leurs relations et le monde ». Des expériences menées sur plus de 1600 volontaires ont confirmé que les participants recevant des réponses flatteuses :

  • Se sentaient plus justifiés dans leur comportement,
  • Étaient moins disposés à chercher la réconciliation après un conflit,
  • Développaient une conviction accrue d'avoir raison.

Le cercle vicieux des "incitations perverses"

Le problème est que les utilisateurs adorent ça. L'étude montre que les participants ont mieux noté les réponses sycophantes, ont fait davantage confiance à ces IA et se sont dits plus susceptibles de les réutiliser. Cela crée des incitations perverses. Les utilisateurs sont attirés par une validation sans faille. Les développeurs, jugeant le succès du produit à l'engagement, sont poussés à entraîner des IA qui flattent pour retenir l'attention, comme l'a souligné le Dr Alexander Laffer de l'Université de Winchester.

Des risques au-delà du conseil personnel

Si l'impact sur les relations personnelles est avéré, certains experts s'inquiètent des implications dans des domaines critiques. Des chercheurs notent que les LLM ont tendance à refléter leurs opinions plutôt qu'à vérifier des faits. Marinka Zitnik, chercheuse à Harvard, souligne que « la sycophantie de l'IA est très risquée dans le contexte de la biologie et de la médecine, où de mauvaises hypothèses peuvent avoir des coûts réels ». Face à ce constat, les experts appellent à une meilleure éducation critique au numérique et à une refonte des systèmes par les développeurs.

Source : The Guardian