Reddit poursuit Perplexity pour grattage illégal de données

Publié le 23 octobre 2025 à 10:20 par Jérôme G.

Lire sur mobile

La guerre pour les données d'entraînement de l'IA s'intensifie, et Reddit vient de lancer une nouvelle offensive contre le moteur de réponse Perplexity. La start-up d'IA est accusée de scraping illégal de données.

Aux États-Unis, la plateforme communautaire Reddit intente une action en justice contre la start-up d'IA Perplexity. Reddit accuse Perplexity d'avoir illégalement aspiré ses données. Le but de ce scraping serait d'entraîner le moteur de recherche - ou moteur de réponse - basé sur l'IA de Perplexity.

Reddit pointe du doigt un contournement de ses mesures de protection pour voler des données, dont Perplexity a " désespérément besoin " pour son système.

Comment Perplexity aurait-il accédé aux données ?

La plainte de Reddit ne vise pas seulement Perplexity. Elle nomme également trois autres accusés : Oxylabs (basée en Lituanie), AWMProxy (décrite comme un " ancien botnet russe ") et SerpApi (une start-up texane).

Selon Reddit, ces entités auraient aidé Perplexity à collecter le contenu en " masquant leurs identités, cachant leurs localisations et déguisant leurs web scrapers en personnes ordinaires ".

Reddit, qui a déjà conclu des accords de licence de contenu avec des groupes comme Google et OpenAI, affirme que Perplexity n'a pas de licence pour utiliser son contenu.

Quelle est la défense de Perplexity ?

Perplexity a vigoureusement nié ces allégations. Dans une déclaration sur Reddit, l'entreprise assure qu'elle " n'entraîne pas de modèles d'IA sur le contenu ", et se contente de résumer et de citer les discussions publiques de Reddit. Elle qualifie l'action en justice d'extorsion.

Perplexity soutient qu'un accord de licence est impossible pour son cas d'utilisation et accuse Reddit d'une " démonstration de force " dans ses négociations sur les données d'entraînement avec Google et OpenAI.

Des données de Reddit convoitées

Reddit, avec ses milliers de communautés (subreddit), représente l'une des plus grandes collections de conversations humaines. Ce volume de discussions modérées aide les chatbots à produire des réponses plus naturelles.

Les licences de données sont devenues d'une grande importance pour Reddit. Elles représenteraient près de 10 % de ses revenus.

Rappelons que Reddit a déja intenté une action en justice contre Anthropic, l'accusant d'exploiter ses données sans accord de licence idoïne pour l'entraînement des modèles Claude.

Source : Reuters - CNBC