Anthropic dévoile une nouvelle constitution pour Claude. Ce document a pour but de définir le " caractère éthique " et " l'identité profonde " de l'IA. Plutôt que d'imposer une liste de règles, Anthropic cherche désormais à ce que Claude comprenne " pourquoi nous voulons qu'il se comporte de certaines manières ".

Les nouvelles valeurs fondamentales de Claude

La nouvelle constitution hiérarchise plusieurs valeurs clés, par ordre de priorité : être globalement sûr, globalement éthique, conforme aux directives d'Anthropic et véritablement utile. Cette approche dit permettre à Claude de naviguer dans des situations complexes et des dilemmes moraux imprévus.

Le document fixe des contraintes strictes sur des actions jugées extrêmes. Il est ainsi interdit à Claude de fournir une " aide sérieuse à la création d'armes biologiques, chimiques, nucléaires ou radiologiques " ou de participer à des cyberattaques contre des infrastructures critiques.

Anthropic s'interroge sur la conscience de son IA

De manière surprenante, le document aborde frontalement " l'incertitude profonde " concernant le statut moral ou la conscience de Claude. Anthropic estime que " le statut moral des modèles d'IA est une question sérieuse qui mérite d'être considérée ".

Selon Amanda Askell, philosophe chez Anthropic, suggérer à Claude qu'il pourrait avoir une conscience est susceptible de le rendre plus performant et plus sûr. Anthropic considère que la " sécurité psychologique, le sens de soi et le bien-être " de l'IA " peuvent avoir une incidence sur son intégrité, son jugement et sa sécurité ".

Une stratégie d'Anthropic

Avec sa démarche, Anthropic renforce son image d'alternative prudente. L'accent mis sur la sécurité et le raisonnement éthique pourrait donner à Claude un avantage concurrentiel auprès de certains utilisateurs et entreprises. Attention toutefois à l'anthropomorphisme...

En entraînant Claude à raisonner sur le bien-être et le jugement, Anthropic parie que les IA puissantes sont inévitables et qu'il est préférable de prendre les devants.