Anthropic dévoile une nouvelle constitution pour Claude. Ce document a pour but de définir le " caractère éthique " et " l'identité profonde " de l'IA. Plutôt que d'imposer une liste de règles, Anthropic cherche désormais à ce que Claude comprenne " pourquoi nous voulons qu'il se comporte de certaines manières ".

Les nouvelles valeurs fondamentales de Claude

La nouvelle constitution hiérarchise plusieurs valeurs clés, par ordre de priorité : être globalement sûr, globalement éthique, conforme aux directives d'Anthropic et véritablement utile. Cette approche dit permettre à Claude de naviguer dans des situations complexes et des dilemmes moraux imprévus.

Le document fixe des contraintes strictes sur des actions jugées extrêmes. Il est ainsi interdit à Claude de fournir une " aide sérieuse à la création d'armes biologiques, chimiques, nucléaires ou radiologiques " ou de participer à des cyberattaques contre des infrastructures critiques.

Anthropic s'interroge sur la conscience de son IA

De manière surprenante, le document aborde frontalement " l'incertitude profonde " concernant le statut moral ou la conscience de Claude. Anthropic estime que " le statut moral des modèles d'IA est une question sérieuse qui mérite d'être considérée ".

Selon Amanda Askell, philosophe chez Anthropic, suggérer à Claude qu'il pourrait avoir une conscience est susceptible de le rendre plus performant et plus sûr. Anthropic considère que la " sécurité psychologique, le sens de soi et le bien-être " de l'IA " peuvent avoir une incidence sur son intégrité, son jugement et sa sécurité ".

anthropic-claude-raisonnement

Une stratégie d'Anthropic

Avec sa démarche, Anthropic renforce son image d'alternative prudente. L'accent mis sur la sécurité et le raisonnement éthique pourrait donner à Claude un avantage concurrentiel auprès de certains utilisateurs et entreprises. Attention toutefois à l'anthropomorphisme...

En entraînant Claude à raisonner sur le bien-être et le jugement, Anthropic parie que les IA puissantes sont inévitables et qu'il est préférable de prendre les devants.