En janvier, alors que les Etats-Unis montraient les muscles de leur intelligence artificielle à coups de dizaines de milliards de dollars d'annonces d'investissement, la diffusion de l'IA chinoise DeepSeek R1 a fait l'effet d'une bombe en offrant de solides performances pour une fraction du prix des IA occidentales.
Si la réalité est sans doute plus prosaïque, son irruption a rappelé qu'il reste de la place pour des modèles d'IA misant sur l'efficience plus que sur la puissance brute de l'infrastructure, et en jouant sur un modèle open source plutôt que le modèle propriétaire d'acteurs comme OpenAI.
Ayant attiré la lumière à elle, une IA DeepSeek R2 ne serait plus très loin avec une nouvelle fois l'ambition de secouer le secteur. En attendant, c'est une nouvelle version du modèle d'IA DeepSeek V3 qui a été mise en service ces derniers jours.
Un nouveau DeepSeek V3 avant DeepSeek R2
DeepSeek V3-0324 (une dénomination signalant son lancement le 24 mars) est un gros LLM (Large Langage Model) de 685 milliards de paramètres qui constitue une évolution légère du modèle V3 avec un certain nombre d'optimisations en matière de raisonnement et de codage.
Déposé sur la plate-forme Hugging Face, ce gros bébé de 680 Go peut être téléchargé et installé pour le tester, sous réserve de disposer d'une machine assez puissante (et riche en mémoire) comme le Mac Studio d'Apple ou le DGX Spark de Nvidia.
Tested the new DeepSeek V3 on my internal bench and it has a huge jump in all metrics on all tests.
— Xeophon (@TheXeophon) March 24, 2025
It is now the best non-reasoning model, dethroning Sonnet 3.5.
Congrats @deepseek_ai! pic.twitter.com/efEu2FQSBe
DeepSeek n'a pas encore mis à jour les informations concernant DeepSeek V3-0324 mais les premiers tests sont déjà jugés impressionnants, le nouveau LLM surpassant certains des grands modèles d'IA du marché sur certains benchmarks.
DeepSeek V3-0324 continue d'exploiter un modèle MoE (Mixture of Experts) qui lui permet de n'utiliser qu'une fraction des centaines de milliards de paramètres pour résoudre une tâche précise là où d'autres LLM déploient toute leur capacité à chaque requête.
Un rapport performances / consommation d'énergie très intéressant
C'est ce qui lui permet de fonctionner avec une infrastructure plus légère que les grands modèles IA concurrents tout en jouant sur différentes technologies comme la MLA (Multi-Head Attention) et le MTP (Multi-Token Prediction) pour optimiser la précision de ses réponses et de l'interprétation du contexte sans nécessiter autant de ressources que d'autres IA.
DeepSeek V3-0324 va sans doute servir de base aux capacités de DeepSeek R2 attendu en principe dès le mois d'avril et qui promet de conserver des tarifs de fonctionnement très agressifs tout en maintenant un haut niveau de qualité dans ses réponses.
On attend avec ce modèle un renforcement des capacités de raisonnement, qui constitue la nouvelle tendance pour les intelligences artificielles. Il sera intéressant de vérifier le le rythme de production des tokens en sortie pour le futur modèle IA chinois, alors que la faculté de raisonnement tend à étirer les temps de réponse. Là encore, le nouveau DeepSeek V3 semble s'en tirer honorablement.