Quand la GeForce Titan V se plante pendant les calculs de simulation scientifique

Le par  |  8 commentaire(s)
Titan V

Alors que Nvidia présentait en décembre dernier sa toute nouvelle Titan V, une carte dédiée aux professionnels à plus de 3000 euros, cette dernière semble manquer de fiabilité.

Au mois de décembre dernier, Nvidia présentait la Titan V, une carte graphique Titan sous architecture Volta (GV100) affichant 12 Go de RAM HBM2 pour une puissance de calcul de 110 Téraflops en 16 Bits et 6875 Téraflops en 64 Bits.

Nvidia insistait alors sur la capacité de sa carte à intégrer les supercalculateurs, mettant en avant les processeurs graphiques comme mieux adaptés aux calculs complexes et notamment dans le Deep Learning et l'IA. Nvidia insistait ainsi sur l'aspect polyvalent de sa carte et tentait de séduire les joueurs fortunés ainsi que les développeurs et chercheurs disposant d'un budget limité.

Titan V

Malheureusement, malgré son orientation vers les pros et son prix en conséquence (3100 euros), il apparait que la Titan V produit des erreurs de calcul dans les simulations scientifiques. C'est un chercheur qui a souhaité rester anonyme qui a lâché ce pavé dans la marre. Selon lui, le GPU de Nvidia fournit des résultats différents pour des calculs similaires, la fiabilité en prend donc un sérieux coup.

Le problème proviendrait du fait que Nvidia n'a pas intégré la technologie ECC de détection et de correction des erreurs de mémoire. Cette technologie est pour l'instant réservée aux GPU Quadro ou TESLA chez Nvidia.

Dans de nombreux cas, l'ECC n'est pas un module systématiquement utile. Dans le cadre du Deep Learning ou de l'IA, il n'y a pas besoin d'accéder à des calculs de très haute précision, la marge d'erreur est donc tolérable.

Dans un jeu, cette erreur de mémoire peut se traduire par un pixel affichant la mauvaise couleur sans pour entrainer de bug majeur. Ces erreurs sont majoritairement imperceptibles pour le joueur, et c'est pourquoi, en orientant sa Titan V vers le jeu et les professionnels dans l'univers du Deep Learning et de l'IA, Nvidia n'a pas jugé utile d'activer l'ECC.

Nvidia a ainsi réagi en précisant que la marque proposait une gamme étendue et adaptée aux besoins de chacun et qu'il fallait alors se tourner vers la gamme Tesla pour profiter de l'error correcting code memory adapté aux simulations scientifiques complexes. Finalement, on est donc loin de l'aspect "polyvalent" largement mis en avant par Nvidia lors de la présentation de sa carte graphique.

Complément d'information

Vos commentaires

Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
Le #2007432
J'aime bien le discours qui passe de "allez y, ça fonctionne pour tout" à "si ça marche pas, prenez autre chose" !
Le #2007442
Tchabada a écrit :

J'aime bien le discours qui passe de "allez y, ça fonctionne pour tout" à "si ça marche pas, prenez autre chose" !


Surtout quand on voit les prix de "l'autre chose" (ici, gamme Tesla)
Le #2007448
Nvidia ne l'a jamais caché ! Fausse polémique ...
Le #2007468
Tchabada a écrit :

J'aime bien le discours qui passe de "allez y, ça fonctionne pour tout" à "si ça marche pas, prenez autre chose" !


Ça me rappel Job avec tenez votre iPhone autrement
Le #2007479
"ce pavé dans la marre" écrit comme ça c'est marrant ...les canards préfère les mares.
Ce n'est pas une erreur c'est une nouvelle fonction.
Le #2007491
L'absence d'ECC n'était pas cachée.
Anonyme
Le #2007514
Le #2007573
yves64 a écrit :

https://humanoides.fr/ia-volkswagen-nvidia/


Quel est le rapport?
Suivre les commentaires
Poster un commentaire
Anonyme
Anonyme