OpenAI indique que ses équipes ont développé une méthode de watermarking sur le contenu texte généré par ChatGPT. Ce tatouage numérique fonctionne en modifiant subtilement la manière dont le modèle d'IA prédit les mots et les phrases les plus probables devant s'enchaîner pour former une réponse.

Invisible pour les utilisateurs, le watermarking est révélé par un outil de détection d'IA. Selon le Wall Street Journal qui a consulté des documents internes, l'efficacité serait redoutable et de 99,9 % lorsque suffisamment de nouveau texte a été créé par ChatGPT.

Pas dans l'intérêt d'OpenAI ?

OpenAI confirme que cette méthode est très précise et même efficace contre les altérations localisées telles que les paraphrases, mais moins robuste face à des modifications globales. Les cas de la traduction ou de la reformulation par un autre modèle d'IA sont cités en exemple.

Une autre mesure de contournement évoquée est la demande au modèle d'insérer un caractère spécial entre chaque mot, puis de supprimer ce caractère. Pour OpenAI, le contournement par des acteurs malintentionnés est ainsi trivial.

Plus surprenant, OpenAI met en balance le fait que le watermarking sur le contenu texte pourrait stigmatiser l'utilisation de l'IA en tant qu'outil d'écriture pour les non-anglophones. Un problème pour OpenAI est aussi que ChatGPT serait alors susceptible d'être moins utilisé que des produits concurrents ne déployant pas ce genre de mesure...

Plutôt les métadonnées

Manifestement, OpenAI va renoncer au watermarking avec ChatGPT et semble actuellement plus enclin à opter pour les métadonnées en tant que méthode pour la provenance d'un texte. Si les travaux menés en ce sens sont dits prometteurs, ils sont néanmoins encore préliminaires.

" Contrairement au watermarking, les métadonnées sont signées de manière cryptographique, ce qui signifie qu'il n'y a pas de faux positifs. […] Bien que le watermarking ait un faible taux de faux positifs, son application à de grands volumes de texte entraînerait un grand nombre de faux positifs au total. "