Les intelligences artificielles sont plus que jamais visibles depuis l'émergence de ChatGPT d'OpenAI fin 2022. Depuis, startups et géants du Web rivalisent de compétition pour développer de grands modèles d'IA toujours plus performants.

Les modèles de type LLM (Large Language Models) rencontrent particulièrement du succès en permettant de créer des agents conversationnels répondant à toutes sortes de questions, analysant, synthétisant ou résumant des documents et aidait à la création de texte, d'image ou de vidéo.

Les intelligences artificielles gagnent presque mois après mois toujours plus de capacité à interpréter des quantités grandissantes d'information grâce au fonctionnement conjoint de milliers, dizaines de milliers, centaines de milliers et peut-être bientôt millions de GPU.

Mais pour être performants au regard de ces nouvelles capacités techniques (et indépendamment des immenses quantités de ressources nécessaires), il faut entraîner ces grands modèles avec des jeux de données de plus en plus vastes, à tel point que l'ensemble des données produites par les humains ne va bientôt plus leur suffire.

Un mur des données dès 2028

Une étude produite par des chercheurs de Epoch AI publiée cette année dans la revue Nature suggère que les jeux de données utilisés pour l'entraînement des IA nécessiteront l'équivalent de l'ensemble des productions humaines vers 2028...voire avant tant les progrès des IA sont massifs.

La croissance des capacités des IA (et par extension l'acheminent vers des intelligences artificielles générales ou AGI) rencontrera donc là un mur qui, avec les restrictions réclamées par certains médias sur l'utilisation de leurs contenus, risque de stopper net leur progression.

Le stock total de contenu d'Internet est estimé (à la louche) à 3100 billions de tokens, avec une capacité de progression estimée à moins de 10% par an, alors que les jeux de données pour les IA tendent à doubler tous les ans.

intelligence artificielle

Pour autant, les entreprises développant ces grands modèles d'IA sont conscients de cette limite à venir mais ne semblent pas inquiètes outre mesure de ses conséquences, explique Nature.

Certes, cette situation va forcément freiner l'essor des IA telles qu'elles sont développées actuellement mais il existe d'autres stratégies de développement. Pour le moment, la facilité est d'entraîner les IA avec le plus de données possibles, parfois récupérées abusivement (d'où les procédures judiciaires en cours et les partenariats négociés avec des médias ou des réseaux sociaux).

Différentes solutions sont à l'étude, comme l'entraînement des IA sur des domaines très précis, l'utilisation de données entrées qui ne sont pas que du texte (photos, vidéos...). L'IA observant des images apprendrait alors comme un enfant observant son environnement en plus de consulter des ouvrages, selon une analogie reprise à Yann LeCun, éminent spécialiste de l'IA chez Meta.

Peut-être aussi faudra-t-il abandonner l'idée de créer des IA toujours plus imposantes et se concentrer plutôt sur des agents opérant à un niveau moins général mais plus efficacement, avec des jeux de données spécifiques et des techniques d'entraînement affinées.

Des IA plus introspectives face au défi des données

D'autres pistes encore portent cette fois sur les jeux de données eux-mêmes avec la création de jeux de données synthétiques créés par des IA pour des IA, ce que certaines entreprises comme OpenAI utilisent déjà et qui peut éviter en partie le problème des droits d'auteur, ou bien en soumettant les mêmes jeux de données plusieurs fois à l'IA et en s'appuyant sur son fonctionnement statistique pour en tirer un bénéfice.

Pour le moment, les IA ingurgitent beaucoup et réarrangent les données pour répondre aux requêtes. Mais les travaux les plus récents portent sur des IA capables de retraiter leurs données, à la manière d'une réflexion ou d'une pensée, un peu comme fonctionne le cerveau humain.

Shéma homme et intelligence artificielle face à face

Ces modèles n'ont alors plus forcément besoin d'un entraînement très riche et se focalisent plutôt sur les techniques de renforcement d'apprentissage pour développer leurs capacités d'inférence.

Pour faire avancer l'IA au-delà du mur des données, il faudra sans doute trouver le moyen de combiner ces différentes techniques en misant sur une intelligence artificielle moins boulimique d'information et plus sensible à son environnement.

Source : Nature