« Certaines choses nous viennent presque instantanément. D'autres demandent beaucoup plus d'endurance mentale. Nous pouvons choisir d'appliquer plus ou moins d'effort cognitif en fonction de la tâche à accomplir. »

Une telle flexibilité est soulignée par Anthropic pour son modèle le plus intelligent à ce jour. Claude 3.7 Sonnet est présenté comme un modèle d'IA de raisonnement hybride capable de produire des réponses immédiates ou de réfléchir à des problèmes plus complexes étape par étape.

Un modèle de raisonnement hybride inédit

Contrairement aux modèles traditionnels, Claude 3.7 Sonnet fusionne les capacités de génération de texte d'un LLM avec des compétences avancées en raisonnement. Cette approche unifiée permet aux utilisateurs de choisir entre des réponses rapides ou des analyses détaillées, selon leurs besoins spécifiques.

En mode standard, Claude 3.7 Sonnet est assimilé à une mise à niveau de Claude 3.5 Sonnet, tandis qu'un mode de réflexion étendue améliore ses performances dans des domaines tels que les mathématiques, la physique, le suivi d'instructions ou encore le codage.

Anthropic ne sera toutefois pas seul sur ce terrain, sachant qu'OpenAI a déjà évoqué ce type d'unification qui est au programme de GPT-5 dans les prochains mois et via l'intégration directe du modèle de raisonnement o3.

Pour les utilisateurs gratuits, sans le mode étendu

Claude 3.7 Sonnet est de la partie pour l'ensemble des forfaits Claude (Free, Pro, Team et Enterprise). La réflexion étendue n'est cependant pas proposée dans le cadre de l'abonnement gratuit. Pour les développeurs, Claude 3.7 Sonnet est disponible par le biais de l'API Anthropic, Amazon Bedrock et Vertex AI de Google Cloud.

Dans les deux modes (standard et étendu), Claude 3.7 Sonnet est au même tarif que les modèles précédents, soit 3 $ par million de tokens d'entrée et 15 $ par million de tokens de sortie. L'utilisation via l'API permet en outre de contrôler le budget pour la réflexion.

« Vous pouvez dire à Claude de réfléchir pour un maximum de N tokens, pour n'importe quelle valeur de N jusqu'à sa limite de sortie de 128 000 tokens. Cela vous permet de faire un compromis entre la vitesse (et le coût) et la qualité de la réponse. »

Pour des tâches du monde réel

Anthropic souligne que lors du développement de ses modèles de raisonnement, l'accent a été mis sur des tâches du monde réel, et un peu moins sur l'optimisation pour des problèmes dans des compétitions en mathématiques et en informatique.

Le but est de mieux refléter la manière dont les entreprises utilisent réellement les grands modèles de langage.

À noter par ailleurs que la date limite des connaissances du modèle Claude 3.7 Sonnet est fixée à octobre 2024.

anthropic-claude-3-7-benchmark

Claude Code : un outil de codage collaboratif

En complément de son nouveau modèle, Anthropic dévoile un agent IA de codage Claude Code qui est actuellement en research preview.

Claude Code agit comme un collaborateur actif et autonome capable de rechercher et de lire du code, de modifier des fichiers, d'écrire et d'exécuter des tests, de valider et d'envoyer du code sur GitHub, d'utiliser des outils de ligne de commande.

« Claude Code a réalisé en une seule passe des tâches qui nécessiteraient normalement plus de 45 minutes de travail manuel, réduisant ainsi le temps de développement et les frais généraux », indique Anthropic pour ses propres équipes, notamment en matière de développement piloté par les tests, de débogage de problèmes complexes et de réusinage de code à grande échelle.

Source : Anthropic