OVH Cloud OVH Cloud

plantages serveur regulier

38 réponses
Avatar
Christophe PEREZ
Bonjour,

Depuis plusieurs mois, je suis confronté à un problème que je ne
parviens pas à résoudre.
Mon serveur plante, régulièrement, après une moyenne d'une dizaine de
jours (sauf exceptions mini: 1 jour,Maxi: 22 jours).

Évidemment, rien dans les logs.
Au moment du plantage, je crois que j'ai toujours été connecté à
internet avec, par un modem pci olitec.

J'ai longtemps incriminé spamassassin qui était très souvent en train
de faire son boulot au moment des plantages.
J'ai fait une mise à jour avec la dernière 2.63.1.

Je pensais à un problème de RAM, je me suis décidé à l'ouvrir pour
lui remettre un lecteur de disquette et faire un test memtest et j'ai
profité de l'ouverture de la machine pour faire un petit entretien
physique.
Bon, c'est vrai que ne pouvant pas trop attendre à ce moment là, je
n'ai laissé que 3 passes au test, ça a duré 3 heures, mais pas
d'erreur.

J'ai pensé au noyau Mandrake, que j'ai remplacé par un 2.4.24 officiel.
Je me suis ensuite rendu compte dans cfdisk que la partition de swap avait
un type 83. J'ai donc refait un mkswap dessus (swap non utilisé à ce
moment là bien sûr).

Après tout ça, j'ai pensé que d'une manière ou d'une autre, le
problème pourrait avoir disparu, et bien non, hier, après juste 2 jours
d'uptime, planté, à nouveau -> power off, rien à faire d'autre.

Maintenant, je commence à me poser des question sur le modem pci. Est-il
possible que ce soit lui qui plante tout comme ça à cause d'une
défaillance de sa part ?
Ça m'embêterait d'avoir à remettre un modem externe car ici, j'ai
énormément de micro-coupures qui me font à chaque fois tomber la
connexion internet si elle est en cours, et il faut aller
désalimenter/réalimenter le modem pour pouvoir reconnecter, c'est
lassant et c'est la raison de mon achat de ce moment interne, il y a
plusieurs mois, mais malheureusement, je ne saurai dire si le début des
plantages correspond à cette date vu que je ne l'avais jamais mis en
cause jusqu'à maintenant.

Le serveur est un vieux PII 233, avec 192Mo de RAM, un disque récent
80Go, carte réseau dlink 100Mb, carte modem pci olitec, carte radio FM
guillemot, pas de X installé, et beaucoup d'applis serveur tournant
dessus (postfix, inn, hylafax, samba, nfs, cups, squid/squidguard, bind,
jabber, ssh, pop3, imap, apache, mysql, icecast, mserver...). Trop ?

Je suis à l'écoute de toutes vos suggestions pour diagnostiquer enfin le
problème, et là, j'ai vraiment besoin d'experts.
Merci beaucoup d'avance.

PS : Désolé pour la longueur, mais je voulais en dire un maximum pour
avoir le maximum de chances d'avoir une aide.

--
Christophe PEREZ
Écrivez moi sans _faute !

8 réponses

1 2 3 4
Avatar
Lsom
no_spam wrote:

le Oom-killer va dégainer


J'aimerais bien que le sytème dégaine !
Mais rien ne se passe.
La machine freeze : plus d'activité disk, freeze écran/souris/clavier , plus
rien ne passe par le modem.

Le sujet du post initial m'a fait penser à mon propre cas.
Mais les causes possibles sont nombreuses...

Avatar
no_spam
On Thu, 12 Feb 2004 10:03:53 +0100, Lsom wrote:

no_spam wrote:

le Oom-killer va dégainer


J'aimerais bien que le sytème dégaine !
Mais rien ne se passe.
La machine freeze : plus d'activité disk, freeze écran/souris/clavier, plus
rien ne passe par le modem.


Si la led numlock ne marche plus, ou si son comportement est erratique,
le PC est complètement planté et le kernel ne tourne plus.
Dans ce cas, il me parait difficile d'incriminer une application.
Il reste deux solutions:
- bug kernel
- pb matériel.
Le cas du bug kernel est facilement d&tectable si on a une console
(même par port série) sur la machine:
il y aura un Ooops au moment du crash.
S'il n'y en a pas, il ne reste que deux solutions:
- boucle infinie dans un driver dans une routine qui tourne avec
les interruptions désactivées... Il y a peu de candidats...
- plantage matériel.


Avatar
Lsom
no_spam wrote:

Si la led numlock ne marche plus,


C'est le cas.

Dans ce cas, il me parait difficile d'incriminer une application.
Il reste deux solutions:
- bug kernel
- pb matériel.


Ca le fait sur les kernels 2.4.22 et 2.4.23. Ca se saurait si il y avait un tel
pb sur le kernel.
En tout cas c'est reproductible à volonté et quand la ram est saturé e.

Pour mon utilisation perso, je fais avec.
Je veille a être à jour sur le noyau et les drivers si ca pouvait ré soudre le
pb.

Avatar
Lsom
Lsom wrote:

Ca le fait sur les kernels 2.4.22 et 2.4.23. Ca se saurait si il y avai t un tel
pb sur le kernel.


Je pense à un truc : comme je compile moi-meme mes noyaux, je n'ai peut etre
pas mis les options appropriées pour permettre au noyau de gérer mon cas de
saturation de ram...
Faudra que j'aille faire un tour dans la doc...

Avatar
Lsom
Christophe PEREZ wrote:

La fréquence de 30sec, c'est bon ?


C'est pour cela que je te faisais remarquer que c'est a priori une fuite lente
!
Donc faire un free 5, 10 ou 30 min avant devrait largement suffire.

Perso, je ne connais quasi rein en shell donc je fais avec ce que j'ai :
while true
do
free > free.log
sleep 300
done

Je ne saurais pas en faire plus ! :(
Mais en l'occurence ca me semble suffire.
Ceci dit, si tu veux 13 Mo de log... ;)

Let's go ! suspens...

Avatar
no_spam
On Thu, 12 Feb 2004 11:46:52 +0100, Lsom wrote:

Lsom wrote:

Ca le fait sur les kernels 2.4.22 et 2.4.23. Ca se saurait si il y avait un tel
pb sur le kernel.



Je pense que si le problème est de cet ordre, ça ne peut être qu'un
driver buggé. Mais ça reste peu probable. Mais si c'est le cas,
il peut très bien ne pas évoluer pendant assez longtemps...

Je pense à un truc : comme je compile moi-meme mes noyaux, je n'ai peut etre
pas mis les options appropriées pour permettre au noyau de gérer mon cas de
saturation de ram...
Faudra que j'aille faire un tour dans la doc...


Je viens de vérifier: dans les 2.4 récents officiels, le oom-killer
est toujours compilé. Donc, il n'y a pas d'option particulière à
activer: la seule option concernant la gestion mémoire
(dans /usr/src/linux/mm) est le support de HIGHMEM (pour utiliser
plus de 800 et quelques Mo de mémoire).


Avatar
Christophe PEREZ
Le Thu, 12 Feb 2004 17:42:01 +0100, Lsom a écrit:

Ceci dit, si tu veux 13 Mo de log... ;)


Je ne suis pas à ça près :-)

--
Christophe PEREZ
Écrivez moi sans _faute !

Avatar
Christophe PEREZ
Le Mon, 09 Feb 2004 13:39:23 -0400, Christophe PEREZ a écrit:

Mon serveur plante, régulièrement, après une moyenne d'une dizaine de
jours (sauf exceptions mini: 1 jour,Maxi: 22 jours).


18:51:49 ~ $ uptime
02:37:23 up 24 days, 14:07, 1 user, load average: 0.00, 0.05, 0.08

Vous croyez que je peux commencer à me réjouïr et surtout à être
rassuré ?
Personnellement, je pense que oui...
Je ne suis pas venu ici pour écrire ça mais pour indiquer ce qui, selon
moi, a finalement résolu le problème.

Maintenant, je commence à me poser des question sur le modem pci. Est-il
possible que ce soit lui qui plante tout comme ça à cause d'une
défaillance de sa part ?


En effet, depuis que je suis passé du driver beta (gratuit) du modem, au
dernier driver (payant), je n'ai plus eu un seul plantage.

Modem Olitec PCI, drivers linuxant hsfmodem-6.03.00lnxt04011900full-1

"Pourvou que ça doure..."©

--
Christophe PEREZ
Écrivez moi sans _faute !

1 2 3 4