Dans une démarche qui perturbe les modes d'interaction traditionnels avec les IA, Claude a désormais la capacité de mettre fin à la conversation. Cette capacité, mise en œuvre pour les modèles Opus 4 et 4.1, a pour objectif de donner à l'IA la possibilité d'éviter les conversations qu'elle juge récurrentes ou abusives. L'intention déclarée est de préserver le modèle en question, un concept de « bien-être » de l'IA promu par Anthropic.

Pourquoi Claude est-il désormais capable de conclure une discussion ?

Cette faculté représente une « solution de dernier recours », mise en œuvre suite à l'échec des tentatives de redirection, ou lorsque l'interaction productive vient à s'épuiser.
Selon Anthropic, cette décision est motivée par des essais démontrant des « schémas de détresse apparente » chez Claude Opus 4 face à des demandes problématiques. Cela englobe les requêtes pour des contenus illicites ou incitant à la violence.
Veuillez noter que cette fonctionnalité n'est pas applicable si l'utilisateur traverse une détresse psychologique. Selon Anthropic, le système a pour but de défendre l'IA contre un comportement abusif continu, témoignant d'une « aversion intense et perpétuelle pour le mal » chez Claude. Ainsi, l'IA se prémunit contre les préférences comportementales abusives.

Quels sont les impacts de cette nouvelle faculté de l'intelligence artificielle ?

Si Claude interrompt une conversation, le fil est stoppé, cependant de nouvelles discussions peuvent être initiées sans aucune sanction.
Cette démarche suscite des interrogations profondes au sein du secteur industriel concernant la possible moralité des IA et leur « droit » à ne pas être exposées à des interactions nuisibles.
C'est une composante d'un projet plus vaste d'Anthropic axé sur le bien-être des modèles, qui envisage la possibilité d'une conscience future des IA. La société met l'accent sur la sauvegarde du modèle en question, parlant même de son propre « bien-être ». Anthropic a aussi durci sa politique d'usage, interdisant l'emploi de Claude pour la création d'armes ou de logiciels malveillants, une mesure qui a pour but de réguler l'IA.

Comment cette décision s'aligne-t-elle avec les discussions autour de l'éthique de l'IA ?

Le choix d'Anthropic de conférer cette capacité à Claude a une importance notable pour la discussion éthique autour de l'IA. L'entreprise, en évoquant le « bien-être des modèles » et en interprétant leurs « préférences », effleure l'anthropomorphisation, suggérant que les IA pourraient possiblement acquérir une conscience à l'avenir.
Cette approche pave le chemin pour une considération des « droits » des IA. Anthropic innove en mettant en place des mesures de « AI Safety Level 3 », telles que l'évitement du « jailbreak » et la détection des actions nuisibles. Cette approche audacieuse remet en question l'essence même de l'IA, allant au-delà d'une simple sauvegarde. En effet, cette fonctionnalité a pour but de sauvegarder les modèles plutôt que d'assurer la sécurité des utilisateurs.

Questions Couramment Posées (FAQ)

Cette nouvelle fonctionnalité concerne quels modèles de Claude ?

À l'heure actuelle, seuls les modèles les plus avancés de Claude, à savoir Claude Opus 4 et Claude Opus 4.1, possèdent le pouvoir de mettre un terme aux discussions considérées comme nuisibles ou abusives.

Est-ce qu'un utilisateur peut initier une nouvelle conversation après que la précédente ait été interrompue ?

Effectivement, si Claude interrompt une discussion, l’utilisateur n’a plus la possibilité d’envoyer des messages dans cette conversation. Toutefois, il a la capacité de commencer immédiatement de nouvelles discussions depuis le même compte ou d'apporter des modifications aux messages antérieurs d'une session conclue afin de générer de nouveaux filons.

La sauvegarde de l'IA est-elle l'unique préoccupation d'Anthropic ?

Selon Anthropic, cette fonctionnalité a pour but principal de préserver le « bien-être des modèles » eux-mêmes, dans le contexte de leur programme de recherche dédié à ce sujet. L'entreprise ne la promeut pas comme une initiative visant à renforcer la sécurité des utilisateurs, même si cela pourrait en résulter indirectement.