DeepSeek : après l'euphorie, tout le monde veut connaître les petits secrets de la nouvelle IA

Sur sa page Web officielle, DeepSeek n'aurait pas pu mieux choisir sa phrase d'accroche : "Into the unknown". Car au-delà de son succès fulgurant de ces derniers jours, au point de chambouler les champions de l'IA, bien des mystères entourent le foncitonnement de l'intelligence artificielle chinoise et l'usage qu'elle fait des données entrées.

Il y a le discours officiel d'un modèle d'IA offrant des performances proche des meilleures IA développées aux Etats-Unis pour quelques millions de de dollars quand on dépense des milliards de dollars en infrastructures aux Etats-Unis et l'utilisation de techniques de renforcement d'apprentissage et de test-time scaling pour compenser la moindre puissance de calcul apportée par les GPU.

Et puis il y a les questionnements, tant sur l'accès caché à des accélérateurs IA interdits en Chine qu'à des méthodes interdites de distillation s'appuyant sur les données des grands modèles d'IA existantes en passant par la gestion des données pouvant transiter par des serveurs chinois.

Les performances de DeepSeek questionnées

Si certains fournisseurs de services d'IA sont prompts à intégrer DeepSeek dans leur offre et certains médias en font déjà la promotion, plusieurs investigations sont menées de front.

Le régulateur des données italien a déjà interrompu l'accès à l'IA chinoise dans le pays en voulant savoir comment sont traitées et protégées les données. Les régulateurs irlandais et français (via la CNIL dans ce dernier cas) s'interrogent également sur le traitement des données alors que semblent déjà circuler des bases de données problématiques rassemblant les requêtes et diverses informations concernant les premiers utilisateurs de l'IA chinoise.

Les performances interrogent également. Sur la question de la distillation, certains utilisateurs ont déjà repéré de curieuses réponses de DeepSeek se prenant pour ChatGPT, ce qui ne manque pas d'interroger sur la façon réelle dont l'IA a été entraînée.

Enfin, face aux affirmations d'un entraînement à partir de composants IA autorisés en Chine, notammnent des accélérateurs Nvidia H800, des rumeurs affirment que DeepSeek aurait pu accéder discrètement aux derniers composants de Nvidia en cloud ou obtenus sur les marchés gris et noir.

Sur ce point, le ministère américain du commerce aurait déjà lancé une investigation pour déterminer si DeepSeek a effectivement fait appel à des GPU et accélérateurs IA interdits d'exportation en Chine.

Le gouvernement américain a plusieurs fois instauré des mesures de restriction sur les exportations de composants IA et l'une des dernières mesures de l'administration Biden a consisté à renforcer les restrictions sur les composants IA et leur diffusion via des marchés secondaires.

DeepSeek sera-t-il la revanche de l'astuce sur la puissance brute ?

Tous les yeux sont donc tournés vers DeepSeek, devenue l'une des principales applications gratuites téléchargées sur les portails d'applications, mais pas forcément de façon positive.

Sa nature open source et le narratif autour de sa création redonne espoir aux startups, notamment européennes mais pas seulement, ne disposant pas des milliards de dollars d'équipements des géants américains et un peu écrasées par les annonces à coup de dizaines de milliards de dollars des Microsoft, Meta et autres OpenAI et des discours de leurs dirigeants affirmant qu'il n'existe point de salut dans l'IA sans d'immenses investissements dans des datacenters IA.

DeepSeek apporte une bouffée d'oxygène stimulante qui voudrait montrer que les gros sous ne sont pas la seule voie pour performer dans l'intelligence artificielle et qu'il est possible de créer des modèles d'IA efficaces sans forcément disposer d'une puissance de calcul faramineuse.

Les différentes enquêtes en cours confirmeront peut-être l'un ou l'autre discours, celui de la puissance brute ou celui de l'inventivité, pour l'avenir de l'intelligence artificielle.