Dans l'arène ultra-compétitive de l'intelligence artificielle, la puissance de calcul est le nerf de la guerre. Jusqu'à présent, l'entraînement de modèles de plus en plus complexes exigeait des investissements colossaux, réservant cette prouesse à une poignée d'acteurs.

C'est dans ce contexte qu'Amazon Web Services (AWS) a officialisé, lors de sa conférence re:Invent, le déploiement de ses nouveaux EC2 Trn3 UltraServers. Ces derniers sont animés par la puce maison de troisième génération Trainium3, une réponse directe aux limites des infrastructures actuelles.

Des performances accrues pour démocratiser l'IA

Le saut de performance annoncé par AWS est considérable. Les Trn3 UltraServers, équipés de puces gravées en 3 nm, affichent des performances de calcul multipliées par 4,4 par rapport à la génération précédente.

Cette puissance s'accompagne d'une bande passante mémoire quasiment quadruplée et, surtout, d'une efficacité énergétique accrue de 40%. Dans un secteur où chaque watt compte, cette avancée n'est pas un détail et la gravure affinée joue pleinement son rôle pour améliorer les qualités du composant.

Concrètement, cela permet de réduire drastiquement les temps d'entraînement des modèles d'IA, passant de plusieurs mois à quelques semaines. L'infrastructure réseau n'est pas en reste, avec le nouveau NeuronSwitch-v1 qui double la bande passante interne et un Neuron Fabric amélioré qui abaisse la latence entre les puces à moins de 10 microsecondes.

Des clients comme Anthropic ou Splash Music rapportent déjà des réductions de coûts allant jusqu'à 50%.

Une architecture intégrée pensée pour l'échelle

L'un des avantages stratégiques d'AWS réside dans son approche verticalement intégrée. Comme l'a souligné son PDG, Matt Garman, l'entreprise contrôle l'ensemble de la chaîne, de la conception de la puce jusqu'au déploiement logiciel.

Cette maîtrise permet une optimisation fine et un déploiement rapide, comme en témoigne le fait que plus d'un million de puces Trainium ont déjà été déployées à une vitesse record.

Cette architecture est conçue pour une mise à l'échelle massive. Les nouveaux EC2 UltraClusters 3.0 peuvent interconnecter des milliers d'UltraServers pour atteindre un total d'un million de puces Trainium3, soit dix fois plus que la génération précédente.

Une telle capacité ouvre la voie à des projets autrefois impensables, comme l'entraînement de modèles multimodaux sur des ensembles de données de plusieurs milliards de tokens ou la gestion d'inférence en temps réel pour des millions d'utilisateurs simultanés.

Trainium4 en ligne de mire : vers une collaboration avec Nvidia ?

Loin de se reposer sur ses lauriers, AWS a déjà levé le voile sur la prochaine étape : la puce Trainium4. Celle-ci promet une nouvelle avancée significative, avec des performances de traitement FP8 au moins trois fois supérieures et une bande passante mémoire quadruplée par rapport à son aînée. Cette feuille de route agressive montre la volonté d'Amazon de pérenniser son avance dans le matériel dédié à l'IA et une expertise poussée dans la conceptions des composants IA avec la capacité de les adapter finement à ses besoins et ceux de ses clients cloud.

Mais l'annonce la plus surprenante concerne l'avenir de cette puce. Trainium4 sera conçue pour prendre en charge la technologie d'interconnexion à grande vitesse Nvidia NVLink Fusion.

Cette décision stratégique suggère une future interopérabilité entre les puces Trainium et les GPU Nvidia, permettant aux clients de construire des infrastructures flexibles et rentables.

C'est une manière habile de s'adresser aux entreprises massivement investies dans l'écosystème CUDA de Nvidia, en leur offrant une porte d'entrée optimisée vers le cloud d'Amazon.