Au cœur d'une rivalité technologique intense entre OpenAI et xAI, l'entreprise d'Elon Musk, un rapprochement inattendu s'est produit. En octobre dernier, xAI lançait Grokipedia, une encyclopédie entièrement générée par intelligence artificielle, présentée comme une alternative à une Wikipédia jugée trop orientée.
Contrairement à son aînée, Grokipedia ne permet pas l'édition humaine directe, centralisant les modifications via un modèle d'IA. Ce système lui a permis une croissance fulgurante, dépassant déjà en volume la version anglophone de Wikipédia.
Le dernier modèle de ChatGPT, GPT-5.2, a commencé à citer Grokipedia, l'encyclopédie générée par l'IA d'Elon Musk. Cette intégration, observée sur des sujets obscurs, suscite des inquiétudes quant à la propagation de désinformation et de récits partisans, un phénomène que les chercheurs qualifient de LLM grooming ou dopage des modèles de langage.
Une contamination discrète mais avérée
Les premières observations proviennent de tests menés sur GPT-5.2, la dernière version du modèle d'OpenAI. Sur une douzaine de requêtes, le chatbot a cité Grokipedia neuf fois, indique The Guardian à l'issue d'un test.
Fait notable, cette contamination n'intervient pas sur les sujets polémiques largement documentés, comme l'insurrection du 6 janvier aux États-Unis, où l'encyclopédie a été critiquée pour ses biais, mais plutôt sur des thématiques de niche ou plus obscures.
Dans certains cas, les informations issues de Grokipedia sont des affirmations plus fortes que celles trouvées sur Wikipédia, voire des faits déjà démentis par le passé, illustrant la subtilité et le danger de cette intégration non maîtrisée.
Un phénomène qui dépasse OpenAI
Cette porosité informationnelle ne se limite pas à l'outil d'OpenAI. D'autres rapports indiquent que Claude, l'assistant IA d'Anthropic, a également commencé à référencer Grokipedia pour des requêtes variées, allant de la production de pétrole aux bières écossaises.
Cela suggère un problème plus large concernant la manière dont les grands modèles de langage (LLM) identifient et hiérarchisent les sources d'information disponibles sur le web.
Interrogé sur le sujet, un porte-parole d'OpenAI a déclaré que ChatGPT "vise à puiser dans un large éventail de sources et de points de vue publiquement disponibles", tout en précisant que des filtres de sécurité sont en place.
De son côté, xAI s'est contenté d'une réponse laconique : "Les médias traditionnels mentent". Anthropic n'a pas souhaité commenter.
Le risque du "dopage" des intelligences artificielles
Pour les spécialistes de la désinformation, cette situation matérialise une crainte majeure : le LLM grooming. Ce terme décrit le processus par lequel des acteurs malveillants pourraient déverser massivement des contenus biaisés ou faux sur internet dans le but de "doper" ou d'influencer les futures générations d'IA.
Pour la chercheuse Nina Jankowicz, l'initiative d'Elon Musk s'appuie sur "des sources au mieux peu fiables, mal sourcées, et au pire de la désinformation délibérée".
Le principal danger réside dans la boucle de légitimation qui peut en découler. Lorsqu'un outil aussi populaire que ChatGPT cite une source, celle-ci gagne en crédibilité aux yeux du public, qui pourrait la considérer comme validée.
Une fois qu'une information erronée est absorbée par un modèle, elle devient extrêmement difficile à retirer, créant un défi de taille pour garantir l'intégrité de l'information à l'ère de l'IA générative. La bataille pour la fiabilité des réponses ne fait que commencer.