Quand la GeForce Titan V se plante pendant les calculs de simulation scientifique

Au mois de décembre dernier, Nvidia présentait la Titan V, une carte graphique Titan sous architecture Volta (GV100) affichant 12 Go de RAM HBM2 pour une puissance de calcul de 110 Téraflops en 16 Bits et 6875 Téraflops en 64 Bits.

Nvidia insistait alors sur la capacité de sa carte à intégrer les supercalculateurs, mettant en avant les processeurs graphiques comme mieux adaptés aux calculs complexes et notamment dans le Deep Learning et l'IA. Nvidia insistait ainsi sur l'aspect polyvalent de sa carte et tentait de séduire les joueurs fortunés ainsi que les développeurs et chercheurs disposant d'un budget limité.

Titan V

Malheureusement, malgré son orientation vers les pros et son prix en conséquence (3100 euros), il apparait que la Titan V produit des erreurs de calcul dans les simulations scientifiques. C'est un chercheur qui a souhaité rester anonyme qui a lâché ce pavé dans la marre. Selon lui, le GPU de Nvidia fournit des résultats différents pour des calculs similaires, la fiabilité en prend donc un sérieux coup.

NVIDIA Titan V - Grafikkarte - 12 GB HBM2

3699€ sur Amazon* * Prix initial : 3699€.

Le problème proviendrait du fait que Nvidia n'a pas intégré la technologie ECC de détection et de correction des erreurs de mémoire. Cette technologie est pour l'instant réservée aux GPU Quadro ou TESLA chez Nvidia.

Dans de nombreux cas, l'ECC n'est pas un module systématiquement utile. Dans le cadre du Deep Learning ou de l'IA, il n'y a pas besoin d'accéder à des calculs de très haute précision, la marge d'erreur est donc tolérable.

Dans un jeu, cette erreur de mémoire peut se traduire par un pixel affichant la mauvaise couleur sans pour entrainer de bug majeur. Ces erreurs sont majoritairement imperceptibles pour le joueur, et c'est pourquoi, en orientant sa Titan V vers le jeu et les professionnels dans l'univers du Deep Learning et de l'IA, Nvidia n'a pas jugé utile d'activer l'ECC.

Nvidia a ainsi réagi en précisant que la marque proposait une gamme étendue et adaptée aux besoins de chacun et qu'il fallait alors se tourner vers la gamme Tesla pour profiter de l'error correcting code memory adapté aux simulations scientifiques complexes. Finalement, on est donc loin de l'aspect "polyvalent" largement mis en avant par Nvidia lors de la présentation de sa carte graphique.