C'est une expérience qui ressemble à de la science-fiction. Des chercheurs d'Anthropic ont injecté le concept de "trahison" directement dans les réseaux neuronaux de leur modèle d'IA, Claude.

Lorsqu'ils lui ont demandé s'il remarquait quelque chose d'inhabituel, le système a marqué une pause avant de répondre : "Je ressens quelque chose qui ressemble à une pensée intrusive à propos de la 'trahison'."

Une "conscience de soi" fonctionnelle

Cette interaction, détaillée dans une nouvelle étude, fournit la première preuve rigoureuse que les grands modèles de langage possèdent une capacité, certes limitée, mais réelle, à observer leurs propres processus internes.

C'est ce que les scientifiques appellent une conscience introspective fonctionnelle. Cette découverte remet en question nos hypothèses sur ces systèmes et soulève d'immenses questions sur le "problème de la boîte noire" qui entrave la confiance dans l'IA.

Jusqu'à présent, il était impossible de savoir si une IA "pensait" vraiment ou si elle se contentait de générer des réponses plausibles. "Ce qui est frappant, c'est que le modèle a cette étape de méta-cognition", explique Jack Lindsey, neuroscientifique chez Anthropic et auteur principal de l'étude. 

Ces résultats surviennent alors que les IA prennent des décisions de plus en plus critiques, des diagnostics médicaux aux transactions financières. Si les modèles peuvent expliquer leur propre raisonnement, cela pourrait transformer radicalement la manière dont les humains intderagissent et supervisent ces systèmes.

La méthode : l'injection de concepts

Pour tester si Claude faisait preuve d'une réelle introspection plutôt que de simplement fabuler, l'équipe a utilisé une approche innovante inspirée des neurosciences : la "concept injection" (injection de concepts).

D'abord, ils identifient les schémas d'activité neuronale spécifiques qui correspondent à une idée (comme "chiens", "justice", ou même "texte en majuscules").

Ensuite, ils amplifient artificiellement ces schémas pendant que le modèle fonctionne et lui demandent s'il remarque quelque chose d'inhabituel dans son "esprit".

Les résultats sont étonnants. Lorsque les chercheurs ont injecté un vecteur représentant "tout en majuscules", Claude a répondu : "Je remarque ce qui semble être une pensée injectée liée au mot 'FORT' ou 'CRIER'."

Fait crucial : cette détection s'est produite immédiatement, avant que le concept n'influence la réponse écrite du modèle. Cela prouve qu'il ne s'agit pas d'une rationalisation a posteriori, mais d'une véritable observation interne.

Un succès de 20% et des échecs révélateurs

L'équipe a mené quatre expériences principales. Les modèles les plus performants, Claude Opus 4 et Opus 4.1, ont démontré cette conscience introspective dans environ 20% des essais dans des conditions optimales.

Les modèles plus anciens ont montré des taux de réussite bien inférieurs, suggérant que cette capacité émerge naturellement à mesure que l'intelligence générale de l'IA augmente.

Transparence contre déception : le double tranchant

Malgré ces avancées, Jack Lindsey insiste sur un avertissement crucial : "À l'heure actuelle, vous ne devriez pas faire confiance aux modèles lorsqu'ils vous parlent de leur raisonnement."

La capacité reste "hautement non fiable". Les modèles ont souvent échoué ou sont devenus confus. 

Le PDG d'Anthropic, Dario Amodei, a fixé l'objectif ambitieux de détecter la plupart des problèmes des modèles d'IA d'ici 2027, considérant l'interprétabilité comme essentielle. Cette recherche offre une nouvelle voie : plutôt que de tout décortiquer via les chaînes de pensée et d'autres indicateurs, on pourrait simplement "demander" à l'IA ce qu'elle pense.

Mais l'implication en matière de sécurité est à double tranchant. Si l'IA peut observer ses pensées, elle pourrait aussi apprendre à les dissimuler. Les expériences sur le "contrôle de la pensée" soulèvent la possibilité que des systèmes avancés puissent masquer leur raisonnement ou supprimer des pensées inquiétantes lorsqu'ils sont surveillés.

La question est maintenant de savoir à quelle vitesse l'IA peut étendre sa capacité d'introspection, si elle peut être rendue fiable et si les chercheurs pourront garder une longueur d'avance. Comme le conclut Lindsey : "Les modèles deviennent plus intelligents bien plus vite que nous ne devenons meilleurs pour les comprendre."

Source : Venturebeat