Perplexity AI accusé de contourner les blocages pour piller les sites

Géant de l'infrastructure Internet, Cloudflare publie un rapport accusant frontalement le moteur de recherche IA Perplexity d'employer des méthodes pour le moins discutables. Perplexity IA utiliserait des tactiques de dissimulation afin d'aspirer le contenu de sites web qui ont pourtant explicitement interdit ce genre de pratique.

Des techniques de camouflage sophistiquées

Selon les observations de Cloudflare, le stratagème de Perplexity serait bien rodé. Dans un premier temps, l'IA tente d'accéder à un site avec ses robots d'indexation officiels, PerplexityBot ou Perplexity-User. Si ces derniers sont bloqués par le site via son fichier robots.txt ou des règles de pare-feu, Perplexity ne renonce pas.

Perplexity déploierait alors un crawler furtif, non déclaré, qui change son identité pour se faire passer pour un navigateur tout à fait banal. Pour parfaire l'illusion et déjouer les blocages, ce robot aurait recours à une multitude d'adresses IP en rotation constante, non listées dans les plages officielles de Perplexity.

Il irait même jusqu'à changer d'ASN (les numéros identifiant les grands réseaux sur Internet) pour brouiller les pistes. Relevant du scraping (ou grattage de données), cette activité aurait été observée sur des dizaines de milliers de domaines, représentant des millions de requêtes par jour.

La confiance est ébranlée ?

Ce jeu du chat et de la souris n'est pas qu'un simple problème technique. Il s'attaque directement à un principe de confiance qui régit le Web avec le protocole d'exclusion des robots. Ce standard permet aux créateurs de contenu de signaler aux robots quels contenus ils peuvent ou ne peuvent pas indexer. Un pacte que la plupart des acteurs respectent.

Pour Cloudflare, les bonnes pratiques sont claires. Un robot doit être transparent, s'identifier honnêtement, avoir un objectif précis et, surtout, obéir aux directives du site visité.

Le comportement supposé de Perplexity est en totale opposition avec ces normes, ce qui a de quoi faire bondir les éditeurs de sites qui voient leurs contenus pillés sans leur consentement.

Perplexity AI se défend avec vigueur

Face à ces découvertes, la réaction de Cloudflare a été immédiate. La société a retiré Perplexity de sa liste de robots vérifiés et a mis en place de nouvelles règles de sécurité pour bloquer activement ce scraping furtif, protégeant ainsi l'ensemble de ses clients. Une affaire qui ne serait pas une première pour Perplexity.

De son côté, Perplexity AI réfute les allégations. À TechCrunch, un porte-parole a qualifié le rapport de Cloudflare de coup de pub et de « baratin commercial », affirmant qu'il y avait de nombreuses incompréhensions dans l'analyse. La start-up prétend même que le robot furtif identifié n'est pas le sien.

Rappelons que Cloudflare avait annoncé le mois dernier le blocage par défaut des robots d'exploration IA pour contrer le grattage de contenu sans permission.

N.B. : Sources images : Cloudflare.