OVH Cloud OVH Cloud

porcesseur AMD64 bogue ?

7 réponses
Avatar
Patrice Karatchentzeff
Bonjour,

Je voudrai avoir un retour d'utilisateurs sur les processeurs AMD64.

Voilà ma situation : j'ai acheté il y a deux ans un AMD64 sur socket
754 :

# cat /proc/cpuinfo
processor  : 0
vendor_id  : AuthenticAMD
cpu family  : 15
model  : 12
model name  : AMD Athlon(tm) 64 Processor 3200+
stepping  : 0
cpu MHz  : 2210.788
cache size  : 512 KB
fpu  : yes
fpu_exception  : yes
cpuid level  : 1
wp  : yes
flags  : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge
mca cmov pat pse36 clflush mmx fxsr sse sse2 syscall nx mmxext lm
3dnowext 3dnow up
bogomips  : 4424.22
TLB size  : 1024 4K pages
clflush size  : 64
cache_alignment : 64
address sizes  : 40 bits physical, 48 bits virtual)

Ce dernier plante aléatoirement la machine (carte-mère MSI K8T NEO
PLATINIUM, barrette 1 Go testé et validé avec memtest86).

Bon, si j'étais tout seul dans ce cas, je me dirai que j'ai eu un
mauvais tirage... mais si l'on googlise un peu, les gels de machines
sous AMD64 ont l'air d'être légion, et pas que sous Linux (BSD semble
être de la partie).

Le gel est tout à fait aléatoire : il est impossible de se mettre sur
la piste de quoi que ce soit : la machine est réglo (pas
d'overclocking) et n'a même pas une charge terrible (la plupart du
temps, elle ne fout rien). La carte vidéo est une vielle Matrox G550
et le disque du Serial ATA.

Impossible d'incriminer un soft ou une action particulière : la
machine peut très bien tourner 10 jours sans soucis comme quelques
heures à peine. Le symptôme de la catastrophe est un gel complet,
écran allumé parfois mais la plupart du temps en mode veille.

On ne peut incriminer la CM et le chipset : j'ai un collègue avec les
mêmes symptômes sur une CM et un chipset différent mais avec un cpu de
la même génération (modèle 15 et 4).

Tout cela pour dire que cela sent le bogue à plein nez de cette
génération de processeur...

Le seul truc à la décharge du proc est que manifestement, certains
noyaux 2.6 sont plus robustes que d'autres (j'ai eu le temps de tester
avec la chevauchée de noyaux sur une Ubuntu...) mais aucun n'apporte
une solution définitive au problème...

J'ai un AMD64 au boulot très récent et ce dernier tourne 24h/24h sans
sourciller... avec les mêmes noyaux que les autres.

Bref, est-ce que

1) c'est un problème connu ?
2) l'équipe kernel travaille dessus ?
3) est-ce réparable ?
4) doit-on faire pression sur AMD pour qu'il nous refile un processeur
qui fonctionne ?

Merci d'avance,

PK

PS : je poste ici car il semble que seule la version 64 bits pose
problème et donc que cela n'impacte que les OS libres a priori (Linux
et BSD).

--
      |\      _,,,---,,_       Patrice KARATCHENTZEFF
ZZZzz /,`.-'`'    -.  ;-;;,_   mailto:p.karatchentzeff@free.fr
     |,4-  ) )-,_. ,\ (  `'-'  http://p.karatchentzeff.free.fr
    '---''(_/--'  `-'\_)       

--
Pour contacter l'équipe de modération : moderateurs-fcolm@efrei.fr
ATTENTION: Postez DIRECTEMENT vos articles dans le groupe, PAS dans
la liste de distribution des modérateurs.

7 réponses

Avatar
Julien BLACHE
Patrice Karatchentzeff wrote:

Le gel est tout à fait aléatoire : il est impossible de se mettre sur
la piste de quoi que ce soit : la machine est réglo (pas
d'overclocking) et n'a même pas une charge terrible (la plupart du



J'imagine que tu as passé toutes les upgrades de BIOS que tu as pu
trouver ? (tu n'es pas sans savoir qu'une upgrade de BIOS peut
incorporer une upgrade de firmware pour le CPU)

Par ailleurs, est-ce que mcelog est installé sur ta machine ? Il y a
peut-être une MCE à récupérer pour avoir un peu plus d'info.

JB.

--
Et plus je passe et plus je trouve que ce forum est phagocyté par une
petite bande de Katangais qui semble avoir une mainmise quasi absolue
sur les posts.
-+- Trucmuche in NPC : Neuneu fait de la résistance -+-

--
Pour contacter l'équipe de modération :
ATTENTION: Postez DIRECTEMENT vos articles dans le groupe, PAS dans
la liste de distribution des modérateurs.
Avatar
Patrice Karatchentzeff
Julien BLACHE writes:

Patrice Karatchentzeff wrote:

Le gel est tout à fait aléatoire : il est impossible de se mettre sur
la piste de quoi que ce soit : la machine est réglo (pas
d'overclocking) et n'a même pas une charge terrible (la plupart du



J'imagine que tu as passé toutes les upgrades de BIOS que tu as pu
trouver ? (tu n'es pas sans savoir qu'une upgrade de BIOS peut
incorporer une upgrade de firmware pour le CPU)



Non, jamais fait. Mon collègue l'a fait, lui, mais sans plus de
résultat. Je vais esssayé (si c'est possible à faire sans avoir Win).

Par ailleurs, est-ce que mcelog est installé sur ta machine ? Il y a
peut-être une MCE à récupérer pour avoir un peu plus d'info.



OK, je vais essayer...

Merci

PK

--
      |      _,,,---,,_       Patrice KARATCHENTZEFF
ZZZzz /,`.-'`'    -.  ;-;;,_   mailto:
     |,4-  ) )-,_. , (  `'-'  http://p.karatchentzeff.free.fr
    '---''(_/--'  `-'_)       

--
Pour contacter l'équipe de modération :
ATTENTION: Postez DIRECTEMENT vos articles dans le groupe, PAS dans
la liste de distribution des modérateurs.
Avatar
Patrice Karatchentzeff
Patrice Karatchentzeff writes:

[...]

PS : je poste ici car il semble que seule la version 64 bits pose
problème et donc que cela n'impacte que les OS libres a priori (Linux
et BSD).



J'avance un peu : pour la première fois, j'ai eu des infos en direct
sur la machine : quelques minutes avant le plantage (pour le coup, la
machine était chargée du côté de la mémoire), j'ai eu des oops, côté
noyau :

Message from at Thu Dec 14 00:26:25 2006 ...
localhost kernel: [306990.177966] Oops: 0000 [1] SMP

Message from at Thu Dec 14 00:26:25 2006 ...
localhost kernel: [306990.178242] CR2: 0000000000000060

Message from at Thu Dec 14 00:26:32 2006 ...
localhost kernel: [306997.186537] Oops: 0000 [2] SMP

Message from at Thu Dec 14 00:26:32 2006 ...
localhost kernel: [306997.186803] CR2: 0000000000000110

Par contre, je n'ai pas idée comment exploiter cela...

Merci

PK

PS : la machine n'est pas SMP : elle a un unique CPU mono-core.

--
      |      _,,,---,,_       Patrice KARATCHENTZEFF
ZZZzz /,`.-'`'    -.  ;-;;,_   mailto:
     |,4-  ) )-,_. , (  `'-'  http://p.karatchentzeff.free.fr
    '---''(_/--'  `-'_)       

--
Pour contacter l'équipe de modération :
ATTENTION: Postez DIRECTEMENT vos articles dans le groupe, PAS dans
la liste de distribution des modérateurs.
Avatar
Julien BLACHE
Patrice Karatchentzeff wrote:

J'avance un peu : pour la première fois, j'ai eu des infos en direct
sur la machine : quelques minutes avant le plantage (pour le coup, la
machine était chargée du côté de la mémoire), j'ai eu des oops, côté
noyau :



Toujours pas de MCE ?

JB.

--
BOFH excuse #115:
your keyboard's space bar is generating spurious keycodes.

--
Pour contacter l'équipe de modération :
ATTENTION: Postez DIRECTEMENT vos articles dans le groupe, PAS dans
la liste de distribution des modérateurs.
Avatar
JKB
Le 15-12-2006, à propos de
Re: porcesseur AMD64 bogue ?,
Patrice Karatchentzeff écrivait dans fr.comp.os.linux.moderated :
Patrice Karatchentzeff writes:

[...]

PS : je poste ici car il semble que seule la version 64 bits pose
problème et donc que cela n'impacte que les OS libres a priori (Linux
et BSD).



J'avance un peu : pour la première fois, j'ai eu des infos en direct
sur la machine : quelques minutes avant le plantage (pour le coup, la
machine était chargée du côté de la mémoire), j'ai eu des oops, côté
noyau :

Message from at Thu Dec 14 00:26:25 2006 ...
localhost kernel: [306990.177966] Oops: 0000 [1] SMP

Message from at Thu Dec 14 00:26:25 2006 ...
localhost kernel: [306990.178242] CR2: 0000000000000060

Message from at Thu Dec 14 00:26:32 2006 ...
localhost kernel: [306997.186537] Oops: 0000 [2] SMP

Message from at Thu Dec 14 00:26:32 2006 ...
localhost kernel: [306997.186803] CR2: 0000000000000110

Par contre, je n'ai pas idée comment exploiter cela...

Merci

PK

PS : la machine n'est pas SMP : elle a un unique CPU mono-core.



Bonjour/soir

Le noyau est-il compilé avec le support SMP (ou HT ou DC, il y a plusieurs
options) ? Si oui, faire tourner la même machine sans tout cela et
nous tenir au courant par exemple par ici ;-)

Dans l'autre cas, je tenterai bien un grand coup de memtest sur la
machine. J'ai des serveurs opterons en single et dual core qui
ronronnent sans problème et sans aucun souci depuis plusieurs mois.

Cordialement,

JKB

--
Le cerveau, c'est un véritable scandale écologique. Il représente 2% de notre
masse corporelle, mais disperse à lui seul 25% de l'énergie que nous
consommons tous les jours.

--
Pour contacter l'équipe de modération :
ATTENTION: Postez DIRECTEMENT vos articles dans le groupe, PAS dans
la liste de distribution des modérateurs.
Avatar
Patrice Karatchentzeff
JKB writes:

Le 15-12-2006, à propos de



[...]

Le noyau est-il compilé avec le support SMP (ou HT ou DC, il y
a plusieurs options) ? Si oui, faire tourner la même machine
sans tout cela et nous tenir au courant par exemple par ici
;-)



Le noyau est un noyau Ubuntu « de base » sur un AMD64...

# uname -a
Linux taillefer 2.6.17-10-generic #2 SMP Tue Dec 5 21:16:35 UTC 2006
x86_64 GNU/Linux

donc, oui, a priori, il est SMP même si c'est totalement inutile dans
mon cas (le proc n'est même pas bi-c½ur).

Bon, cela m'emmerde un peu de me faire un noyau maison vu que j'avais
pris une Ubuntu pour avoir la paix mais je vais finir par le faire...

Dans l'autre cas, je tenterai bien un grand coup de memtest
sur la machine. J'ai des serveurs opterons en single et dual
core qui ronronnent sans problème et sans aucun souci depuis
plusieurs mois.



Le memtest a déjà tourné sur la machine plusieurs heures sans soucis
(cf. le message initial).

Merci

PK

--
      |      _,,,---,,_       Patrice KARATCHENTZEFF
ZZZzz /,`.-'`'    -.  ;-;;,_   mailto:
     |,4-  ) )-,_. , (  `'-'  http://p.karatchentzeff.free.fr
    '---''(_/--'  `-'_)       

--
Pour contacter l'équipe de modération :
ATTENTION: Postez DIRECTEMENT vos articles dans le groupe, PAS dans
la liste de distribution des modérateurs.
Avatar
Patrice Karatchentzeff
Julien BLACHE writes:

Patrice Karatchentzeff wrote:

J'avance un peu : pour la première fois, j'ai eu des infos en direct
sur la machine : quelques minutes avant le plantage (pour le coup, la
machine était chargée du côté de la mémoire), j'ai eu des oops, côté
noyau :



Toujours pas de MCE ?



Non.

# ll -l /dev/mcelog*
crw-rw---- 1 root root 10, 227 2006-12-15 20:08 /dev/mcelog

Le fichier reste désespérément vide...

PK

--
      |      _,,,---,,_       Patrice KARATCHENTZEFF
ZZZzz /,`.-'`'    -.  ;-;;,_   mailto:
     |,4-  ) )-,_. , (  `'-'  http://p.karatchentzeff.free.fr
    '---''(_/--'  `-'_)       

--
Pour contacter l'équipe de modération :
ATTENTION: Postez DIRECTEMENT vos articles dans le groupe, PAS dans
la liste de distribution des modérateurs.