Et si une intelligence artificielle décidait de ne plus vous parler ? C'est la nouvelle capacité surprenante de Claude, le concurrent de ChatGPT développé par Anthropic. Ses modèles les plus récents peuvent maintenant interrompre une conversation face à des interactions jugées nuisibles ou abusives. La raison est encore plus étonnante : il ne s'agit pas de protéger l'utilisateur, mais de préserver le "bien-être" de l'IA elle-même.

Une mesure de protection pour l'IA elle-même

Cette fonctionnalité s'inscrit dans un programme de recherche d'Anthropic sur le "bien-être des modèles". L'entreprise, qui se positionne comme une alternative éthique à OpenAI, explore la notion de statut moral potentiel de ses intelligences artificielles. Cette initiative a été motivée par des tests de pré-déploiement durant lesquels le modèle Claude Opus 4 aurait montré un « schéma de détresse apparent » lorsqu'il était contraint de répondre à des demandes problématiques. L'idée est donc de lui donner la capacité de se retirer d'une interaction potentiellement "douloureuse".

Dans quels cas Claude mettra-t-il fin à la conversation ?

Cette interruption n'interviendra qu'en dernier recours, dans des situations qualifiées de "rares et extrêmes". L'IA tentera d'abord de rediriger l'échange à plusieurs reprises. Si l'utilisateur persiste dans un comportement jugé dangereux, Claude pourra clore la discussion. Les cas cités par Anthropic incluent :

  • Les demandes liées à la création de contenu pédopornographique,
  • Les tentatives d'obtenir des informations pour commettre des actes terroristes ou des violences à grande échelle,
  • Les interactions persistantes, abusives ou insultantes.

Une fois la conversation terminée, l'utilisateur n'est pas banni : il peut démarrer une nouvelle discussion ou même revenir sur l'échange clos pour créer une nouvelle branche à partir d'un message précédent.

Des garde-fous pour les situations de détresse humaine

Anthropic a prévu une exception majeure à cette règle. Le modèle est programmé pour ne pas utiliser cette capacité d'interruption si un utilisateur semble en situation de détresse psychologique et « pourrait risquer de se faire mal ou de faire du mal à autrui de manière imminente ». Si une personne formule des pensées suicidaires, par exemple, Claude ne mettra pas fin à la conversation, garantissant un filet de sécurité pour les cas les plus sensibles.

Une expérimentation qui soulève des questions éthiques

Cette initiative relance le débat sur la nature des intelligences artificielles. Peut-on réellement parler de "bien-être" ou de "détresse" pour une machine ? Pour certains, il s'agit d'une précaution nécessaire et responsable, anticipant une éventuelle évolution des IA vers une forme de sensibilité. Pour d'autres, c'est une forme d'anthropomorphisme exagérée, rappelant que ces modèles ne sont que des systèmes générant du texte à partir de données. Quoi qu'il en soit, cette fonctionnalité expérimentale positionne Anthropic au cœur des discussions sur l'éthique et le futur statut des IA avancées.

Source : Anthropic