Représentant ensemble plus de 800 titres, l'Alliance de la presse d'information générale (Apig) et le Syndicat des éditeurs de presse magazine (SEPM) lancent une offensive visant les bases de données comme Common Crawl, C4 et Oscar. Elles sont accusées d'être les supermarchés où les géants de l'IA viennent se servir sans payer.

Un écosystème de contournement des droits

Des robots parcourent le Web et aspirent des milliards de pages, y compris des millions d'articles de presse. Ces contenus sont ensuite stockés dans des bases de données « prétendument publiques ». Des entreprises d'IA n'ont plus qu'à piocher dans ce réservoir pour entraîner leurs modèles de langage.

Pour les organisations de presse, cette manœuvre leur permet d'éviter toute négociation directe avec les éditeurs et de contourner la législation sur la propriété intellectuelle. Elles évoquent un système de « blanchiment d'usages non autorisés ».

La riposte s'organise méthodiquement

Face à ce pillage, la presse française a décidé de frapper fort et de manière coordonnée. La stratégie se déploie en plusieurs étapes. D'abord, faire constater par huissier la présence massive et illégale des contenus protégés dans ces bases de données. À ce titre, des preuves ont déjà été accumulées.

Ensuite, des mises en demeure ont été envoyées pour exiger le retrait immédiat des articles. Si ces demandes restent sans réponse, les éditeurs de presse sont prêts à passer à la vitesse supérieure et à porter l'affaire en justice.

Forcer les géants de l'IA à négocier

L'objectif final n'est pas de freiner le développement technologique, mais « d'établir un cadre respectueux des droits des créateurs de contenus » et de contraindre des fournisseurs d'AI à s'asseoir à la table des négociations.

Dans une FAQ, Common Crawl explique comment configurer le fichier robots.txt afin de bloquer son crawler et l'empêcher d'explorer un site.

Rappelons par ailleurs que pour les sites rejoignant sa plateforme, Cloudflare a décidé de bloquer par défaut les robots d'exploration IA (crawlers IA) qui accèdent à des contenus sans autorisation ni rémunération.