Pour accompagner l'essor de l'intelligence artificielle, Google développe de plusieurs années des composants spécifiques dits TPU (Tensor Processing Unit) capables de gérer les grands moments de la vie des IA : l'entraînement et l'inférence.

Trillium est la sixième génération des TPU de Google et c'est ce type de composant qui a servi à entraîner Gemini 2.0, la toute nouvelle intelligence artificielle multimodale du géant de Mountain View.

Trillium, le TPU de 6ème génération pour grands modèles d'IA

Alors qu'elle va finalement être accessible aux utilisateurs Google Cloud, La firme en donne quelques détails. Trillium profite du savoir-faire des cinq générations de TPU précédentes et se destine à de grands modèles au sein de son architecture AI Hypercomputer avec un ensemble d'optimisations pour les environnements JAX, PyTorch et TensorFlow.

Google promet ainsi une grosse poussée des performances par rapport à la génération précédente avec des capacités d'entraînement IA multipliée par 4, une performance d'inférence triplée sans sacrifier la consommation d'énergie : l'effiacité énergétique serait ainsi améliorée de 67% avec Trillium.

Le saut de performance est impressionnant puisque Google prétend mutliplier par 4,7 la performance de calcul en pic par puce, avec un doublement de la quantité de mémoire rapide HBM (High Bandwith Memory) et de la bande passante en interconnexion.

Cap sur les MoE

Google revendique également de meilleurs ratios performance / dollar tant en entraînement (2,5 fois) qu'en inférence (1,4 fois). Trillium pourra ainsi être une solution de choix pour entraîner et faire fonctionner de très grands modèles d'IA avec une efficacité augmentant avec le nombre de puces engagées dans le traitement.

  

Les composants Trillium sont particulièrement adaptés aux modèles d'IA denses comme les grands LLM et aux MoE (Mixture of Experts), tendance en progression qui combine plusieurs systèmes d'IA dédiés pour constituer les IA multimodales pouvant interpréter différents types d'entrées (texte, image, voix, vidéo...).

Google met en avant sa capacité à rassembler des centaines de milliers de TPU Trillium pour constituer de vastes systèmes de calcul IA gérables depuis son architecture AI Hypercomputer