OVH Cloud OVH Cloud

plantages serveur regulier

38 réponses
Avatar
Christophe PEREZ
Bonjour,

Depuis plusieurs mois, je suis confronté à un problème que je ne
parviens pas à résoudre.
Mon serveur plante, régulièrement, après une moyenne d'une dizaine de
jours (sauf exceptions mini: 1 jour,Maxi: 22 jours).

Évidemment, rien dans les logs.
Au moment du plantage, je crois que j'ai toujours été connecté à
internet avec, par un modem pci olitec.

J'ai longtemps incriminé spamassassin qui était très souvent en train
de faire son boulot au moment des plantages.
J'ai fait une mise à jour avec la dernière 2.63.1.

Je pensais à un problème de RAM, je me suis décidé à l'ouvrir pour
lui remettre un lecteur de disquette et faire un test memtest et j'ai
profité de l'ouverture de la machine pour faire un petit entretien
physique.
Bon, c'est vrai que ne pouvant pas trop attendre à ce moment là, je
n'ai laissé que 3 passes au test, ça a duré 3 heures, mais pas
d'erreur.

J'ai pensé au noyau Mandrake, que j'ai remplacé par un 2.4.24 officiel.
Je me suis ensuite rendu compte dans cfdisk que la partition de swap avait
un type 83. J'ai donc refait un mkswap dessus (swap non utilisé à ce
moment là bien sûr).

Après tout ça, j'ai pensé que d'une manière ou d'une autre, le
problème pourrait avoir disparu, et bien non, hier, après juste 2 jours
d'uptime, planté, à nouveau -> power off, rien à faire d'autre.

Maintenant, je commence à me poser des question sur le modem pci. Est-il
possible que ce soit lui qui plante tout comme ça à cause d'une
défaillance de sa part ?
Ça m'embêterait d'avoir à remettre un modem externe car ici, j'ai
énormément de micro-coupures qui me font à chaque fois tomber la
connexion internet si elle est en cours, et il faut aller
désalimenter/réalimenter le modem pour pouvoir reconnecter, c'est
lassant et c'est la raison de mon achat de ce moment interne, il y a
plusieurs mois, mais malheureusement, je ne saurai dire si le début des
plantages correspond à cette date vu que je ne l'avais jamais mis en
cause jusqu'à maintenant.

Le serveur est un vieux PII 233, avec 192Mo de RAM, un disque récent
80Go, carte réseau dlink 100Mb, carte modem pci olitec, carte radio FM
guillemot, pas de X installé, et beaucoup d'applis serveur tournant
dessus (postfix, inn, hylafax, samba, nfs, cups, squid/squidguard, bind,
jabber, ssh, pop3, imap, apache, mysql, icecast, mserver...). Trop ?

Je suis à l'écoute de toutes vos suggestions pour diagnostiquer enfin le
problème, et là, j'ai vraiment besoin d'experts.
Merci beaucoup d'avance.

PS : Désolé pour la longueur, mais je voulais en dire un maximum pour
avoir le maximum de chances d'avoir une aide.

--
Christophe PEREZ
Écrivez moi sans _faute !

10 réponses

1 2 3 4
Avatar
Rakotomandimby
Christophe PEREZ wrote:

alors effectivement /var/log/messages ne contient rien d'indicatif , du
moins pour moi .
Ben pour moi non plus, mais tu voulais voir mes logs :-))

Tu penses bien qu'en plusieurs moi, je les ai étudiés les logs...


Oui mais je n'ai jamais dit que je trouverai qqchose , non plus . j'ai dit
"donne les logs , ça aiderai ptet ... "

Sinon , je vais te paraitre chiant , certes , mais bon le but n'est pas de
t'ennerver :

Je suis desolé , mais sur les logs , je ne vois pas clairement ou est le
reboot , et si c'estsuite a plantage ou pas .

De plus , ton repertoire /var/* est world-writable comme le
dit /var/log/messages , c'est pas tres sur ( combien de gens , se font
servir par se serveur ? sont-ce tous des neuneu en fino ou bien y a des
ptits malins ? )

Le fait que les logs ne trahissent rien de serieux mene a la piste
materielle ...
--
Rakotomandimby Mihamina Andrianifaharana
Tel : +33 2 38 76 43 65
http://stko.dyndns.info/site_principal/Members/mihamina


Avatar
Christophe PEREZ
Le Wed, 11 Feb 2004 16:51:23 +0100, Rakotomandimby a écrit:

Oui mais je n'ai jamais dit que je trouverai qqchose , non plus . j'ai dit
"donne les logs , ça aiderai ptet ... "


C'est vrai !

Sinon , je vais te paraitre chiant , certes , mais bon le but n'est pas de
t'ennerver :


Mais non ! :-)

Je suis desolé , mais sur les logs , je ne vois pas clairement ou est le
reboot , et si c'estsuite a plantage ou pas .


Moi non plus, sinon je s'rais même pas v'nu ;-)

De plus , ton repertoire /var/* est world-writable comme le
dit /var/log/messages , c'est pas tres sur ( combien de gens , se font
servir par se serveur ? sont-ce tous des neuneu en fino ou bien y a des
ptits malins ? )


Oui, bon, c'est vrai que j'ai à faire des efforts sur tout ça, mais
toutefois, mon réseau, tu sais, c'est à la maison avec juste femme et
enfants, et pour l'instant, c'est même moi qui leur installe les softs
tellement ils s'y connaissent peu, alors, avant qu'ils me hackent :-)

Le fait que les logs ne trahissent rien de serieux mene a la piste
materielle ...


C'est bien ce que je craignais... et c'est pour ça que j'ai testé la
ram, malheureusement sans succès, j'aurais préféré avoir une erreur.
Mais dans ce cas, aucun moyen de détecter d'où ça vient ?

--
Christophe PEREZ
Écrivez moi sans _faute !

Avatar
Christophe PEREZ
Le Wed, 11 Feb 2004 07:28:15 +0000, gerard patel a écrit:

bon, disons que j'ai l'esprit trop soupçonneux


Meuh non !

je me demande si ce n'est pas que l'onduleur utilisé
manque d'une protection efficace contre les parasurtensions.


Possible, mais tu veux dire que :
1) donc le PC a été fusillé par cette mauvaise protection ?
ou/et
2) c'est pendant ces parasurtensions que le PC plante ? Auquel cas, il
suffirait de changer l'onduleur ?

--
Christophe PEREZ
Écrivez moi sans _faute !

Avatar
Christophe PEREZ
Le Wed, 11 Feb 2004 16:03:36 +0100, Lsom a écrit:

Donc, regarde où tu en es en ram quand ca plante.


Et comment je fais pour connaître l'état de la ram au moment du plantage ?

--
Christophe PEREZ
Écrivez moi sans _faute !

Avatar
Lsom
Christophe PEREZ wrote:

Et comment je fais pour connaître l'état de la ram au moment du pla ntage ?


Soit tu fais le test bourin que j'ai fait en chargeant la machine. Ca
permettrait de savoir si mon cas se retrouve chez toi. Et ca évite d'al ler vers
un nouveau crash non voulu.

Soit tu fais un script qui ecrit régulièrement les resultats de "free " dans un
fichier : si c'est ca, manifestement, la fuite de ram serait très lente ; donc
tu le verras dans le dernier fichier écrit.

Avatar
g.patel
On Wed, 11 Feb 2004 12:57:03 -0400, Christophe PEREZ
wrote:

(...)
2) c'est pendant ces parasurtensions que le PC plante ?


Moui. A vrai dire, je n'ai pas de certitude là dessus.
Dans un cas comme ça mon approche serait déterminée
par la possibilité d'échanger l'onduleur avec une celui d'une
autre machine (de préférence d'un autre modèle). Mais
s'il fallait en acheter un pour faire ce test, j'hésiterais plus.

En tout cas les plantages 'durs' sont plus fréquemment causés
par des problèmes matériels.

Cela dit, j'ai un très bel exemple de plantage total lié un logiciel
particulier sur ma machine.
Je soupçonne que c'est causé par un pilote vidéo bogué. Un pilote
bogué peut causer des symptomes identiques à une panne
matérielle. Si on maitrise pas ses conditions de plantage (ce
qui n'est pas vrai dans mon cas, je sais exactement que faire
pour planter ma machine), c'est vraiment très difficile de faire
la différence. Et un diagnostic par Internet, c'est de la divination.

Gérard Patel

Avatar
no_spam
On Wed, 11 Feb 2004 18:30:28 +0100, Lsom wrote:

Christophe PEREZ wrote:

Et comment je fais pour connaître l'état de la ram au moment du plantage ?


Soit tu fais le test bourin que j'ai fait en chargeant la machine. Ca
permettrait de savoir si mon cas se retrouve chez toi. Et ca évite d'aller vers
un nouveau crash non voulu.

Soit tu fais un script qui ecrit régulièrement les resultats de "free" dans un
fichier : si c'est ca, manifestement, la fuite de ram serait très lente ; donc
tu le verras dans le dernier fichier écrit.


Si j'ai bien compris, ça ne correspond pas au problème:
s'il n'y a plus de mémoire disponible, des applis vont effectivement
planter. Mais, rapidement (enfin, quand ça swappe à mort,
c'est relatif), le Oom-killer va dégainer et finir par tuer l'appli
concernée.
Mais dans aucun cas (du moins dans aucun que j'ai vu jusqu'à présent)
ça ne fait tomber le kernel.
La machine devient extrèmement lente, des process importants peuvent
crasher, mais, par exemple, la machine réponds toujours au ping
et aux Magic-Sys-Rq, ce qui prouve qu'elle est vivante.
Et on arrive (parfois avec beaucoup de patience...) à en reprendre
le controle, ou au moins à la rebooter proprement.

Mais, c'est vrai que ça ne coute rien de vérifier...


Avatar
Christophe PEREZ
Le Wed, 11 Feb 2004 18:07:19 +0000, gerard patel a écrit:

c'est vraiment très difficile de faire
la différence. Et un diagnostic par Internet, c'est de la divination.


Je sais bien.
Merci quand même de m'avoir apporté ces éléments de réflexion.

--
Christophe PEREZ
Écrivez moi sans _faute !

Avatar
Christophe PEREZ
Le Wed, 11 Feb 2004 18:30:28 +0100, Lsom a écrit:

Soit tu fais un script qui ecrit régulièrement les resultats de "free" dans un
fichier : si c'est ca, manifestement, la fuite de ram serait très lente ; donc
tu le verras dans le dernier fichier écrit.


Je vais essayé ça, effectivement, en parallèle avec l'achat d'un autre
onduleur.

--
Christophe PEREZ
Écrivez moi sans _faute !

Avatar
Christophe PEREZ
Le Wed, 11 Feb 2004 23:43:03 +0100, no_spam a écrit:

Mais, c'est vrai que ça ne coute rien de vérifier...


Bon, j'ai lancé un :
nohup free -s 30 > /var/log/free.log & 2> /dev/null
sur le serveur.
La fréquence de 30sec, c'est bon ?
Je sais qu'il peut s'en passer des choses en 30sec, mais je ne veux pas
non plus avoir des logs de centaines de Mo :-)
Là, pour 20 jours, ça devrait me faire 13Mo environ...
et ça m'étonnerait qu'il tienne 20 jours :-(

Je vous tiendrai au courant.

--
Christophe PEREZ
Écrivez moi sans _faute !

1 2 3 4