Reddit vient de prendre une décision susceptible d'avoir un impact pour l'archivage du Web. La plateforme a l'intention de bloquer l'indexation de ses pages par la Wayback Machine, l'outil emblématique de l'Internet Archive.
Cela signifie que la mémoire numérique de millions de conversations, de subreddits et de profils d'utilisateurs risque de disparaître des archives publiques. Seule la page d'accueil de Reddit restera accessible, offrant un simple aperçu des tendances.
La chasse au scraping d'IA
Le motif derrière cette manœuvre est la lutte contre le scraping de données par des entreprises d'IA. Reddit accuse certains acteurs du domaine de piller ses contenus via les archives de la Wayback Machine pour entraîner leurs modèles, enfreignant ainsi ses conditions d'utilisation. Pour ce grattage de données, aucun nom n'est divulgué.
Porte-parole de Reddit, Tim Rathschmidt déclare à The Verge : « Nous avons été informés de cas où des entreprises d'IA violent les politiques des plateformes, y compris les nôtres, et extraient des données de la Wayback Machine ».
Un virage stratégique et financier
La décision s'inscrit dans une stratégie plus large de monétisation des données. Après avoir modifié son API en 2023, une action qui avait déjà provoqué la grogne des utilisateurs et la fermeture d'applications tierces, Reddit a officialisé une politique d'accès payant à ses données pour les entreprises d'IA.
Des accords de licence ont déjà été signés, notamment avec Google et avec OpenAI. L'accord avec Google serait d'une valeur d'environ de 60 millions de dollars sur une base annualisée. En bloquant l'accès par le biais de la Wayback Machine, Reddit cherche à fermer une porte dérobée et à pousser davantage de sociétés à payer.
Rappelons que Reddit a attaqué Anthropic (Claude) en justice et lui reproche d'exploiter ses données sans accord de licence idoine.
L'archivage du Web en péril ?
Au-delà de l'aspect financier, Reddit soulève une autre préoccupation : la protection de la vie privée. La plateforme reproche à la Wayback Machine d'archiver des contenus que des utilisateurs ont pourtant supprimés.
« Jusqu'à ce qu'ils soient en mesure de défendre leur site et de se conformer aux politiques de la plateforme (par exemple, respecter la vie privée des utilisateurs, concernant la suppression de contenu retiré), nous limitons une partie de leur accès aux données de Reddit pour protéger les redditors », précise Tim Rathschmidt.
Directeur de la Wayback Machine, Mark Graham indique que des discussions sont en cours avec Reddit et il souligne une relation de longue date.