Face à l'utilisation massive et non autorisée de leurs contenus pour entraîner les modèles d'intelligence artificielle, plusieurs grands noms du web ont décidé de s'unir. Reddit, Yahoo, Medium, Quora ou encore Ziff Davis (propriétaire d'IGN) ont annoncé leur soutien à une nouvelle norme de licence ouverte : la Really Simple Licensing (RSL). L'objectif est simple : permettre aux éditeurs de définir des conditions financières pour que les robots des entreprises d'IA puissent explorer leurs sites.
Du robots.txt aux licences payantes
Le standard RSL ne part pas de zéro. Il s'appuie sur le protocole 'robots.txt', un fichier que les éditeurs utilisent depuis longtemps pour indiquer aux robots d'exploration (web crawlers) les parties de leur site accessibles ou non. La nouveauté est que, au lieu d'un simple "oui" ou "non", les éditeurs peuvent désormais y intégrer des termes de licence et des barèmes de redevances lisibles par les machines.
Plusieurs modèles de licence sont possibles :
- Un abonnement payant,
- Un paiement par exploration (pay-per-crawl), où l'entreprise d'IA paie à chaque passage de son robot,
- Un paiement par inférence (pay-per-inference), où l'éditeur est rémunéré chaque fois qu'un modèle d'IA utilise son contenu pour générer une réponse.
Les robots qui explorent les sites à d'autres fins, comme l'indexation pour les moteurs de recherche ou l'archivage, ne sont pas concernés et peuvent continuer leurs opérations normalement.
Le RSL Collective, une force de frappe unifiée
Derrière cette norme se trouve une nouvelle organisation de défense des droits, le RSL Collective. Elle est dirigée par Eckart Walther, l'un des co-créateurs du standard RSS, et Doug Leeds, ancien PDG d'Ask.com. Leur but est de créer « un nouveau modèle économique scalable pour le web ». L'organisation agit comme une société de gestion des droits d'auteur, à l'image de l'ASCAP pour la musique. Elle permet de négocier des accords de licence au nom de tous ses membres, simplifiant le processus pour les éditeurs qui n'ont pas la taille nécessaire pour négocier seuls des contrats, à l'instar de Reddit qui perçoit déjà environ 60 millions de dollars par an de Google.
Exemple de code RSL pour un abonnement payant.
Crédits : Really Simple Licensing (RSL)
Le défi de l'adoption par les géants de l'IA
Le succès du standard RSL dépend entièrement de sa reconnaissance par les grandes entreprises d'IA. Historiquement, de nombreux robots ont été accusés d'ignorer les directives des fichiers 'robots.txt'. Le pari du RSL Collective est que le poids combiné de ses membres rendra l'adoption de la norme plus attrayante. « Notre travail est de rassembler un grand groupe de personnes pour dire qu'il est dans votre intérêt [d'adopter le standard], à la fois pour des raisons d'efficacité, car vous pouvez négocier avec tout le monde en même temps, et juridiques, car si vous ne le faites pas, vous enfreignez les droits de tout le monde en même temps », explique Doug Leeds.
De la norme à la pratique : comment bloquer les robots ?
Le standard RSL en lui-même ne peut pas empêcher un robot d'accéder à un site. Pour cela, le collectif s'est associé à des fournisseurs de réseaux de distribution de contenu (CDN) comme Fastly. Ce dernier agira comme « le videur à l'entrée du club », selon les termes de Doug Leeds. Fastly vérifiera si un robot d'IA possède bien une "carte d'identité" (une licence RSL valide) avant de l'autoriser à entrer sur le site d'un éditeur. Sans de tels partenaires, les éditeurs peuvent toujours demander une licence, mais ne pourront pas bloquer techniquement les robots récalcitrants. L'espoir est que cette infrastructure incite l'industrie de l'IA à jouer le jeu, d'autant que plusieurs de ses dirigeants ont publiquement appelé à la création d'un tel système.