Anthropic lance son nouveau modèle phare, Claude Opus 4.6, présenté comme une mise à niveau directe de son prédécesseur. Disponible au même tarif, cette itération met l'accent sur les tâches complexes et multi-étapes, une plus grande fiabilité dans les bases de code volumineuses et des capacités de débogage accrues.

Quelles sont les améliorations de performance ?

Un atout de Claude Opus 4.6 est sa fenêtre contextuelle d'un million de tokens, une première pour un modèle de classe Opus, bien que pour l'instant en bêta. Cela lui permet de traiter des documents beaucoup plus volumineux et de lutter contre la dégradation des performances sur de longues conversations.

Sur des benchmarks spécifiques comme MRCR v2, Claude Opus 4.6 atteint un score de 76 %, écrasant les 18,5 % de Sonnet 4.5. Sur des évaluations de travail intellectuel telles que GDPval-AA, il dépasse GPT-5.2 de 144 points Elo et encore davantage par rapport à Gemini 3 Pro.

Pour les développeurs, une nouveauté marquante est l'introduction des agent teams. En préversion, cette fonctionnalité permet de diviser le travail entre plusieurs agents qui se coordonnent entre eux.

Selon Anthropic, cette approche permet de s'attaquer à un projet de développement qui prendrait normalement des jours et de le terminer en quelques heures, en gérant toutes les étapes de l'architecture au déploiement.

Un usage au-delà du code

Avec Claude Opus 4.6, Anthropic ne vise pas que les seuls développeurs et s'adresse à un ensemble plus large de professionnels.

Les intégrations avec Excel et PowerPoint, qui permettent désormais de générer et modifier des feuilles de calcul ou des présentations directement depuis les applications, facilitent l'analyse financière, la recherche ou le marketing pour les utilisateurs non techniques.

Pour l'API, de nouvelles fonctionnalités sont au programme. L'Adaptive Thinking permet au modèle de décider lui-même quand un raisonnement plus approfondi est nécessaire, tandis que la Context Compaction résume automatiquement le contexte plus ancien pour éviter de saturer la fenêtre de tokens.

Ces outils et d'autres donnent aux utilisateurs un contrôle plus fin sur les capacités du modèle, son coût et sa vitesse.

La sécurité est-elle à la hauteur ?

Anthropic affirme avoir mené une série de tests de sécurité la plus complète à ce jour, incluant des évaluations sur le bien-être de l'utilisateur et le refus du modèle pour des requêtes dangereuses. Le profil de sécurité de Claude Opus 4.6 serait " aussi bon, voire meilleur, que n'importe quel autre modèle de pointe de l'industrie ".

Pour le suivi des abus potentiels, six nouvelles sondes de cybersécurité ont toutefois été développées. En outre, la question des injections indirectes de prompt demeure une problématique constante.

Benchmarks pour Claude Opus 4.6