Guillaume Lample, directeur scientifique et cofondateur de la licorne française Mistral AI, est directement impliqué dans une affaire de piratage de données à très grande échelle. Les faits remontent à 2022, lorsqu'il travaillait encore pour Meta. L'affaire jette une ombre profonde sur le champion européen de l'IA.
Comment Meta aurait-il organisé ce pillage de données ?
Les révélations proviennent de documents judiciaires de l'affaire "Kadrey v. Meta Platforms Inc.". Ils sont accablants. Le géant américain aurait téléchargé plus de 81 téraoctets de livres et articles scientifiques depuis des plateformes illégales comme Library Genesis. L'objectif : nourrir en urgence son modèle LLaMA pour rattraper son retard sur OpenAI.
Au centre de cette opération, on retrouverait Guillaume Lample. Les journaux de téléchargement et les échanges internes cités dans l'enquête de Mediapart attestent de son rôle moteur dans cette collecte massive de contenus protégés par le droit d'auteur.
Quelle était la justification derrière cette pratique ?
La pression était immense. Pour rivaliser avec ChatGPT, il fallait des données, vite et en masse. Les solutions légales ? Déraisonnablement chères et trop lentes, selon des cadres de l'entreprise. Obtenir des licences aurait aussi compromis la stratégie de défense juridique basée sur le "fair use" (usage équitable), un argument juridique clé dans ce type de procès.
Face aux réticences d'une chercheuse qualifiant ce piratage de "ligne rouge", la réponse de Guillaume Lample aurait été sans appel : "Tout le monde utilise LibGen. C'est ce qu'OpenAI fait [...], ce que Google fait [...]. Donc on va le faire aussi". Une logique du "pas vu, pas pris" qui aurait été validée au plus haut niveau, jusqu'à Mark Zuckerberg lui-même.
Quelles conséquences pour l'avenir de Mistral AI ?
Le scandale explose au pire moment pour Mistral AI, la startup valorisée à près de 12 milliards d'euros et présentée comme l'étendard d'une IA européenne éthique. La question est désormais sur toutes les lèvres : les méthodes utilisées chez Meta ont-elles été reproduites pour entraîner ses propres modèles, comme Mistral 7B ?
Le risque est double : juridique et réputationnel. Les avocats des auteurs pourraient s'intéresser de près au cas de la licorne française, créant un effet de "double whammy" judiciaire. Politiquement, l'affaire fragilise l'entreprise alors même que l'Europe tente de réguler le secteur via l'AI Act pour protéger les créateurs.
Foire Aux Questions (FAQ)
Qui est Guillaume Lample ?
Il est le cofondateur et directeur scientifique de Mistral AI. Avant cela, il était un chercheur clé chez Meta et l'un des principaux architectes du modèle de langage LLaMA.
De quoi est-il accusé précisément ?
Il est accusé d'avoir orchestré, en 2022 lorsqu'il travaillait pour Meta, le téléchargement massif de dizaines de téraoctets de livres protégés par le droit d'auteur via des plateformes pirates pour entraîner des intelligences artificielles.
Pourquoi cette affaire touche-t-elle Mistral AI ?
Elle entache la réputation de l'entreprise, qui se positionne comme un modèle d'IA éthique. Surtout, elle soulève la question de savoir si des pratiques de collecte de données similaires ont été utilisées pour développer les propres modèles de Mistral AI, exposant la startup à de sérieux risques juridiques.