En plein cœur de la Californie, trente sommités des mathématiques du monde entier se sont réunies à la mi-mai pour un conclave inédit. Leur mission ? Tester les limites d'un chatbot de "raisonnement", le fameux o4-mini d'OpenAI, face à des problèmes qu'ils avaient eux-mêmes conçus. Pendant deux jours, ces experts ont soumis des questions de niveau professoral à la machine, pour découvrir avec stupéfaction sa capacité à résoudre des énigmes parmi les plus complexes et "résolvables" au monde. Un constat qui a laissé Ken Ono, mathématicien à l'Université de Virginie et juge de la rencontre, sans voix : des collègues ont même parlé de "génie mathématique" approché par ces modèles.
L'o4-mini, un modèle de langage étendu (LLM) "léger" et agile, a été spécifiquement entraîné par OpenAI pour des déductions complexes, tout comme le Google Gemini 2.5 Flash de Google. Contrairement aux LLM traditionnels qui se contentent de prédire le mot suivant, cette nouvelle génération s'appuie sur des ensembles de données spécialisés et un renforcement humain accru, lui permettant de plonger bien plus profondément dans les problèmes mathématiques.
Comment l'IA a-t-elle été mise à l'épreuve ?
Pour jauger l'efficacité de l'o4-mini, OpenAI avait mandaté Epoch AI, un organisme à but non lucratif spécialisé dans l'évaluation des LLM, de concocter 300 problèmes mathématiques inédits. Tandis que les LLM classiques peinaient à résoudre plus de 2% de questions non familières, prouvant leur manque de raisonnement, l'o4-mini a fait figure d'exception. En septembre 2024, Elliot Glazer, un mathématicien fraîchement doctorant, a rejoint le projet "FrontierMath" d'Epoch AI, collectant des problèmes de difficulté variée. Dès avril 2025, l'o4-mini parvenait à résoudre environ 20% des questions, y compris celles de niveau recherche. Le vrai défi est arrivé avec le "quatrième niveau" : des problèmes que seule une poignée d'académiciens au monde seraient capables de poser, et encore moins de résoudre.
Les mathématiciens participant à ce défi de haut vol ont dû signer un accord de non-divulgation, avec l'obligation stricte de communiquer uniquement via l'application de messagerie Signal. Cette précaution visait à éviter toute contamination des données d'entraînement de l'IA par des échanges traditionnels comme l'e-mail, potentiellement scannables par un LLM.
L'IA peut-elle raisonner comme un humain ?
Chaque problème que l'o4-mini ne parvenait pas à résoudre rapportait 7 500 dollars à son concepteur. Débusquer des problèmes inédits s'est avéré être une tâche de longue haleine, exigeant une persévérance à toute épreuve même pour les mathématiciens les plus doués. Pour accélérer les choses, Epoch AI a organisé cette rencontre physique les 17 et 18 mai. Les 30 participants, répartis en groupes de six, se sont lancés dans une compétition acharnée : imaginer des problèmes qu'eux-mêmes pouvaient résoudre, mais qui mettraient en échec le chatbot d'OpenAI. C'est à ce moment que la surprise fut totale.
Ken Ono, frustré par l'inattendue puissance mathématique du bot, a posé un problème qu'il qualifie de question ouverte en théorie des nombres, digne d'un bon doctorat. En dix minutes, l'o4-mini a déroulé une solution en temps réel, expliquant son raisonnement pas à pas.Le bot a d'abord plongé dans les ouvrages spécialisés pour s'imprégner du sujet. Puis, avec une logique déconcertante, il a suggéré de s'attaquer à une version simplifiée du problème, une sorte de 'brouillon', avant de se lancer dans l'énigme complexe. Cinq minutes plus tard, il a livré une solution correcte, mais avec une pointe d'insolence : "Aucune citation nécessaire car le nombre mystère a été calculé par moi !", a-t-il affiché. Sidéré, Ono a partagé son expérience avec les autres participants : "Je n'étais pas prêt à me confronter à un tel LLM. Je n'ai jamais vu ce genre de raisonnement auparavant chez des modèles. C'est ce que fait un scientifique. C'est effrayant."
Quel avenir pour les mathématiciens face à cette avancée ?
Bien que le groupe ait réussi à trouver dix questions qui ont déjoué l'o4-mini, les chercheurs ont été ébahis par l'ampleur des progrès de l'IA en un an seulement. Ken Ono a même comparé cette expérience à travailler avec un "collaborateur puissant". Yang Hui He, mathématicien au London Institute for Mathematical Sciences et pionnier de l'IA en mathématiques, a surenchéri : "C'est ce qu'un très, très bon étudiant diplômé ferait – en fait, plus." La rapidité du bot est un autre facteur troublant : quelques minutes là où un expert humain mettrait des semaines, voire des mois. Si cette confrontation fut fascinante, elle a aussi suscité des inquiétudes. Ono et He craignent une confiance excessive dans les résultats de l'o4-mini. "Il y a la preuve par induction, la preuve par contradiction, et puis preuve par intimidation", ironise He. "Je pense que l'o4-mini a maîtrisé la preuve par intimidation ; il dit tout avec tant de confiance."
La fin de la réunion a ouvert des discussions sur l'avenir des mathématiciens. Si l'IA atteint le "cinquième niveau" – des questions insolubles même pour les meilleurs – le rôle des experts humains changera radicalement. Ils pourraient se concentrer davantage sur la pose de questions et l'interaction avec les bots pour découvrir de nouvelles vérités mathématiques, à la manière d'un professeur avec ses étudiants. Pour Ken Ono, "nourrir la créativité dans l'enseignement supérieur sera essentiel pour maintenir les mathématiques vivantes pour les générations futures." L'IA, loin d'être un simple outil, s'affirme comme un acteur capable de rivaliser avec l'esprit humain, un constat à méditer sérieusement.
Foire Aux Questions (FAQ)
Qu'est-ce que l'o4-mini et en quoi est-il différent des autres IA ?
L'o4-mini est un modèle de langage étendu (LLM) développé par OpenAI. Contrairement aux versions précédentes, il est plus léger, plus agile et entraîné sur des jeux de données spécialisés avec un renforcement humain accru. Cela lui permet de réaliser des déductions très complexes et de résoudre des problèmes mathématiques bien au-delà des capacités des LLM traditionnels.
Pourquoi les mathématiciens ont-ils dû signer un accord de non-divulgation ?
Les mathématiciens ont signé un accord de non-divulgation (NDA) pour protéger l'intégrité de l'expérience. Ils devaient communiquer uniquement via Signal, afin d'éviter que leurs échanges par des moyens plus conventionnels (comme l'e-mail) ne soient scannés par un LLM, ce qui aurait pu involontairement entraîner l'IA et ainsi "contaminer" les données de test.
L'IA va-t-elle remplacer les mathématiciens ?
Il est peu probable que l'IA remplace entièrement les mathématiciens. Cependant, les capacités de l'o4-mini suggèrent un changement de rôle. Les mathématiciens pourraient se concentrer davantage sur la formulation de questions et l'interaction avec l'IA pour explorer de nouvelles vérités mathématiques, agissant comme des "collaborateurs" avec ces systèmes avancés. La créativité humaine restera primordiale.