C'est au tour de xAI d'officialiser une version améliorée de son modèle de langage. Actuellement en bêta, Grok 4.1 est disponible pour tous les utilisateurs via le Web (grok.com), la plateforme X et les applications mobiles.
Au top du ressenti sur LMArena
Selon les données partagées par LMArena, Grok 4.1 s'est hissé à la première place du classement Text Arena. Une version Grok 4.1 Thinking obtient un score Elo de 1483 points, dépassant de 31 points le modèle non-xAI le mieux classé, en l'occurrence Gemini 2.5 Pro.
Même la version sans raisonnement, plus rapide, se classe deuxième avec 1465 points Elo, surpassant les configurations complètes de nombreux concurrents. À souligner toutefois que le classement ne prend pas en compte GPT-5.1.
xAI précise un déploiement silencieux mené sur deux semaines, durant lequel le modèle a été préféré 64,78 % du temps face à son prédécesseur.
Au-delà de la puissance, qu'en est-il de sa fiabilité et de son intelligence ?
xAI met l'accent sur la réduction des erreurs factuelles. Les tests internes montrent une division par près de trois du taux d'hallucination par rapport à Grok 4, le rendant plus fiable pour les requêtes d'information.
De plus, Grok 4.1 se démarque dans des domaines plus nuancés. Sur le benchmark EQ-Bench, qui évalue l'intelligence émotionnelle, il se classe également en tête.
Selon xA, le modèle est " exceptionnellement capable dans les interactions créatives, émotionnelles et collaboratives ", grâce à de nouvelles méthodes d'évaluation autonomes.
Après GPT-5.1 et juste avant Gemini 3.0
Ce lancement repositionne xAI comme un prétendant sérieux. Grok 4.1 fait oublier le classement décevant de Grok 4 en seulement trois mois. Une performance qui met la pression sur OpenAI avec GPT-5.1, tandis que Google doit dévoiler d'ici peu Gemini 3.0.