OVH Cloud OVH Cloud

Pb de memoire... ou autre chose ?

19 réponses
Avatar
Paul GABORIT
J'ai FreeBSD 5.1. Régulièrement, j'avais des erreurs non répétitives mais
uniquement lors des compilations et uniquement avec 'make' (erreur 139 ou
autres). Si je relancais la compilation, l'erreur avait lieu ailleurs (mais
toujours dans 'make') ou plus du tout !

Lors des mises à jour des ports, ce n'était pas très dérangeant puisqu'il
suffisait d'insister un peu et ça passait (Par exemple, lors du passage à
gettext-0.13, il m'a fallu trois passes de 'portupgrade' avant d'obtenir la
recompilation complète de tous les ports).

Ce genre de bug fait évidemment penser à un problème de mémoire mais je
n'avais pas le temps de regarder.

En début de semaine, je me décide enfin à mettre à jour mon "monde". Mais
impossible de faire un buildworld. Et là, le processus recommence au début
systématiquement (il ne commençait même pas les compilations). J'ai donc
décidé de vérifier ma mémoire. J'ai lancé 'memtest86' avec tous les tests et
en essayant trois configurations (mes deux barrettes mémoires ensemble puis
chacune séparément). Mais aucune erreur au bout de 4 heures de tests. J'ai
donc remis les deux barettes.

Je redémarre FreeBSD et je relance mon buildworld mais cette fois en mode
console. Et là, surprise, tout se passe à merveille. J'ai donc pu réinstallé
mon nouveau noyau et mon nouveau monde. Dans la foulée, j'ai lancé un
portupgrade et lui aussi a été jusqu'au bout sans aucun problème.

Je suis donc maintenant face à trois hypothèses :

1 - une incompatibilité du 'make' d'origine avec mon noyau modifié (un GENERIC
avec juste l'ajout du support ATM).

2 - un bug dans les drivers NVidia (qui semblent très bien fonctionné par
ailleurs) qui ne se manifesterait que lors des compilations.

3 - une barette mémoire instable mais difficilement détectable.

La (1) me semble très peu probable (sur d'autres PC où j'ai fait la même
installation, le bug ne se manifeste pas). La (2) l'est peut-être mais je ne
vois pas le lien entre les compilations et le driver d'affichage. La (3) reste
la plus probable mais je ne sais pas comment déterminer la barette mémoire
défectueuse.

Auriez-vous d'autres hypothèses ?
Quels conseils pourriez-vous me donner ?

Merci.

--
Paul Gaborit - <http://www.enstimac.fr/~gaborit/>

10 réponses

1 2
Avatar
Sylvain Tertois
Paul GABORIT a écrit:
J'ai FreeBSD 5.1. Régulièrement, j'avais des erreurs non répétitives
[...]

Je suis donc maintenant face à trois hypothèses :

1 - une incompatibilité du 'make' d'origine avec mon noyau modifié
[...]

2 - un bug dans les drivers NVidia (qui semblent très bien fonctionné par
ailleurs) qui ne se manifesterait que lors des compilations.

3 - une barette mémoire instable mais difficilement détectable.


Je peux te proposer une hypothèse 4, pas hyper probable, mais on sait
jamais... Une alimentation un peu faiblarde. Les cartes vidéo "d'aujourd'hui"
ont tendance à pomper pas mal de courant, et ça cause peut-être des
problèmes quand en plus la machine travaille beaucoup. Tu peux tester avec une
autre alimentation?

--
Sylvain

Avatar
Laurent Lefevre
Paul GABORIT writes:

J'ai FreeBSD 5.1. Régulièrement, j'avais des erreurs non répétitives mais
uniquement lors des compilations et uniquement avec 'make' (erreur 139 ou
autres). Si je relancais la compilation, l'erreur avait lieu ailleurs (mais
toujours dans 'make') ou plus du tout !


Si tu as plusieurs barettes mémoire, vires les toutes sauf une (...),
refait tes tests jusqu'a trouver la fautive. Sauf chipset AMD alakon ou
autres pièges de pc de la mortkitu à une patate, ça pourrait être ton
problème.

--
Laurent

Avatar
Eric Masson
"Laurent" == Laurent Lefevre writes:






'Lut,

Laurent> Sauf chipset AMD alakon ou autres pièges de pc de la mortkitu
Laurent> à une patate, ça pourrait être ton problème.

Ca, c'est petit ;)

Eric Masson

--
bio> Qui peut encore croire que le bio est reserve aux gens
bio> financierement aises?
Tous les gens qui ne sont pas financierement aises.
-+- DC in <http://www.le-gnu.net> : À l'aise blaise -+-





Avatar
Paul GABORIT
À (at) Thu, 12 Feb 2004 15:01:04 +0100,
Sylvain Tertois écrivait (wrote):
Je peux te proposer une hypothèse 4, pas hyper probable, mais on sait
jamais... Une alimentation un peu faiblarde. Les cartes vidéo
"d'aujourd'hui" ont tendance à pomper pas mal de courant, et ça cause
peut-être des problèmes quand en plus la machine travaille beaucoup. Tu peux
tester avec une autre alimentation?


C'est une hypothèse que pourrait me sembler probable sur certains PC mais pas
avec l'alimentation de celui-là. C'est une belle et grosse alimentation dans un
boitier qui peut accueillir encore du monde et une carte mère qui est loin
d'utiliser tous ses slots... Juste par acquis de conscience, je testerai
l'alim pour voir ce qu'elle a dans les tripes mais je n'y crois pas.

Merci.

--
Paul Gaborit - <http://www.enstimac.fr/~gaborit/>

Avatar
Paul GABORIT
À (at) Thu, 12 Feb 2004 16:11:49 +0100,
(Xavier) écrivait (wrote):
Paul GABORIT wrote:

3 - une barette mémoire instable mais difficilement détectable.


Pas forcément instable, mais aux contacts un poil oxydés. Souvent un
coup de gomme à encre fait des miracles sur les contacts.


Et cela ne serait pas détectable par memtest86 ? D'autant que je les ai sorti
en rentré plusieurs fois pour faire mes tests, cela enlève aussi pas mal une
éventuelle oxydation.

--
Paul Gaborit - <http://www.enstimac.fr/~gaborit/>


Avatar
pornin
According to Paul GABORIT <Paul.Gaborit+:
Je suis donc maintenant face à trois hypothèses :
[...]

2 - un bug dans les drivers NVidia (qui semblent très bien fonctionné par
ailleurs) qui ne se manifesterait que lors des compilations.
[...]

La (2) l'est peut-être mais je ne vois pas le lien entre les
compilations et le driver d'affichage.


Un driver de carte graphique explique notamment à ladite carte comment
rendre sa mémoire graphique accessible au processeur. Toutes les cartes
(et tous les drivers aussi, d'ailleurs) sont plus ou moins buggués, ce
qui veut dire que dans le cas qui nous intéresse, il est plausible qu'un
bug du driver et/ou de la carte fasse des choses vilaines sur le bus
mémoire, ce qui peut corrompre la mémoire. Ça s'est déjà vu. Le plus
probable serait un bug de la carte, mal contourné par le driver.


Personnellement, j'avais des compilations qui se passaient mal quand
je jouais avec une carte réseau qui avait un driver buggué, ce qui
faisait que la carte réseau envoyait parfois les données au mauvais
endroit en mémoire.


Sinon, en complément de l'hypothèse "la carte graphique pompe plus de
jus quand elle affiche du graphisme en plein de points", on peut aussi
parler de l'hypothèse "la carte graphique chauffe plus en mode graphique
qu'en mode texte". Une carte graphique moderne chauffe beaucoup
(certaines ont leur propre ventilateur).


la plus probable mais je ne sais pas comment déterminer la barette mémoire
défectueuse.


Éventuellement en les montant dans un autre PC. Rien qu'en échangeant
toutes les barrettes avec celles d'une autre machine, on peut
potentiellement innocenter les barrettes (si ça plante encore).


Quels conseils pourriez-vous me donner ?


Idéalement, ne pas utiliser de PC. Les bonnes machines (grosses Sparc,
Alpha,...) ont de la mémoire ECC qui permet des diagnostics plus
rapides (évidemment, ça se paye...).


--Thomas Pornin

Avatar
Paul GABORIT
À (at) Thu, 12 Feb 2004 17:29:02 +0100,
Laurent Lefevre écrivait (wrote):
Si tu as plusieurs barettes mémoire, vires les toutes sauf une (...),
refait tes tests jusqu'a trouver la fautive.


C'était l'ultime test que je vais testé ce soir.

Sauf chipset AMD alakon ou autres pièges de pc de la mortkitu à une patate,
ça pourrait être ton problème.


En l'occurence c'est un bête pentium 4...

'alakon' ? Est-ce le dernier né chez AMD ? ;-)

Merci.

--
Paul Gaborit - <http://www.enstimac.fr/~gaborit/>

Avatar
Laurent Lefevre
Paul GABORIT writes:

En l'occurence c'est un bête pentium 4...

'alakon' ? Est-ce le dernier né chez AMD ? ;-)


Meuh non...que je suis vilain ! Et petit... ;-)
Tu sait, il y a un virus, qui donne la mips'o'matos, qui contamine tous
ceux qui ont tendance à râler un peu sur la daube moderne.

Ce que disait Thomas Pornin est malheureusement une realité, bien qu'il
ait oublié les fabuleuses machines de SGI.

--
Laurent

Avatar
mips
On Thu, 12 Feb 2004 19:55:43 +0100
Laurent Lefevre wrote:

Paul GABORIT writes:
En l'occurence c'est un bête pentium 4...
'alakon' ? Est-ce le dernier né chez AMD ? ;-)
Meuh non...que je suis vilain ! Et petit... ;-)

Tu sait, il y a un virus, qui donne la mips'o'matos, qui contamine
tous
ceux qui ont tendance à râler un peu sur la daube moderne.


Rhoooo la mauvaise foi. Moi j'ai rien contre le matos recent. La
preuve j'ai du me pourvoir d'un P4-C avec une carte mere dote d'un
i865 et tout le bordel qui suit. Et bien apres avoir rajoute un poil
de code tout marche tres bien et j'en suis tres content.

D'ailleurs apres reflexion je me demande si tu n'as pas traine avec le
Grumpy pour etre d'aussi mauvaise foi.

Bon par contre si on parle de GNU alors la je ... euh .. *oups* j'ai
failli deraper ;)

mips


Avatar
Laurent Lefevre
mips writes:

Rhoooo la mauvaise foi. Moi j'ai rien contre le matos recent. La
preuve j'ai du me pourvoir d'un P4-C avec une carte mere dote d'un
i865 et tout le bordel qui suit. Et bien apres avoir rajoute un poil
de code tout marche tres bien et j'en suis tres content.
D'ailleurs apres reflexion je me demande si tu n'as pas traine avec le
Grumpy pour etre d'aussi mauvaise foi.


Je ne le connait même pas ... mais il est surement sympathique.

Bon par contre si on parle de GNU alors la je ... euh .. *oups* j'ai
failli deraper ;)


Bah voilà, tu vois, tu râles encore ;-)

--
Laurent

1 2