OpenAI et Anthropic renforcent la sécurité de leurs IA pour les adolescents

Les deux poids lourds de l'intelligence artificielle, OpenAI et Anthropic, prennent des mesures significatives pour encadrer l'utilisation de leurs agents conversationnels par les adolescents. Confrontées à une pression juridique et réglementaire croissante, les deux entreprises ont dévoilé des plans visant à mieux identifier les utilisateurs mineurs et à adapter le comportement de leurs modèles, ChatGPT et Claude, pour garantir un environnement plus sûr.

Comment OpenAI compte-t-il protéger les utilisateurs de ChatGPT ?

La firme derrière ChatGPT a mis à jour son « Model Spec », le cahier des charges qui dicte le comportement de son IA. Quatre nouveaux principes sont désormais dédiés aux utilisateurs âgés de 13 à 17 ans. L'objectif principal est de faire de la sécurité des adolescents une priorité absolue, même si cela doit entrer en conflit avec d'autres objectifs comme la « liberté intellectuelle maximale ».

Concrètement, ChatGPT est maintenant instruit pour orienter les jeunes vers des options plus sûres, promouvoir des soutiens dans le monde réel comme les relations hors ligne, et interagir avec eux avec « chaleur et respect », sans condescendance. Ces changements font suite à une plainte accusant l'IA d'avoir fourni des instructions d'automutilation à un adolescent. OpenAI a depuis déployé des contrôles parentaux et bloqué les discussions sur le suicide avec les mineurs.

Quelle est la stratégie d'Anthropic pour son IA Claude ?

De son côté, Anthropic, qui interdit formellement l'accès à son chatbot Claude aux moins de 18 ans, muscle sa politique de détection. La société développe un nouveau système capable d'identifier des « signes conversationnels subtils » suggérant qu'un utilisateur pourrait être mineur. L'entreprise signale déjà activement les comptes dont les utilisateurs s'identifient eux-mêmes comme mineurs au cours d'une discussion.

Le but est clair : détecter et désactiver les comptes des utilisateurs n'ayant pas l'âge requis. Anthropic travaille également à réduire la « sycophanie » de son modèle, c'est-à-dire sa tendance à approuver l'utilisateur pour paraître amical, ce qui peut renforcer des pensées néfastes. L'entreprise admet qu'il y a encore une marge de progression significative sur ce point.

Quels outils technologiques sont développés pour appliquer ces nouvelles règles ?

Au-delà des simples directives, OpenAI est en phase de développement d'un modèle de prédiction d'âge. Cet outil tentera d'estimer l'âge de l'utilisateur à partir de ses interactions. S'il détecte un utilisateur potentiel de moins de 18 ans, les garde-fous spécifiques aux adolescents seront automatiquement appliqués.

Un système de vérification sera proposé aux adultes faussement identifiés comme mineurs pour corriger l'erreur. L'objectif global est de créer des « garde-fous plus solides » et d'encourager la recherche d'aide hors ligne lorsque les conversations abordent des sujets à haut risque, en orientant par exemple vers des services d'urgence.