Depuis plusieurs mois, je suis confronté à un problème que je ne
parviens pas à résoudre.
Mon serveur plante, régulièrement, après une moyenne d'une dizaine de
jours (sauf exceptions mini: 1 jour,Maxi: 22 jours).
Évidemment, rien dans les logs.
Au moment du plantage, je crois que j'ai toujours été connecté à
internet avec, par un modem pci olitec.
J'ai longtemps incriminé spamassassin qui était très souvent en train
de faire son boulot au moment des plantages.
J'ai fait une mise à jour avec la dernière 2.63.1.
Je pensais à un problème de RAM, je me suis décidé à l'ouvrir pour
lui remettre un lecteur de disquette et faire un test memtest et j'ai
profité de l'ouverture de la machine pour faire un petit entretien
physique.
Bon, c'est vrai que ne pouvant pas trop attendre à ce moment là, je
n'ai laissé que 3 passes au test, ça a duré 3 heures, mais pas
d'erreur.
J'ai pensé au noyau Mandrake, que j'ai remplacé par un 2.4.24 officiel.
Je me suis ensuite rendu compte dans cfdisk que la partition de swap avait
un type 83. J'ai donc refait un mkswap dessus (swap non utilisé à ce
moment là bien sûr).
Après tout ça, j'ai pensé que d'une manière ou d'une autre, le
problème pourrait avoir disparu, et bien non, hier, après juste 2 jours
d'uptime, planté, à nouveau -> power off, rien à faire d'autre.
Maintenant, je commence à me poser des question sur le modem pci. Est-il
possible que ce soit lui qui plante tout comme ça à cause d'une
défaillance de sa part ?
Ça m'embêterait d'avoir à remettre un modem externe car ici, j'ai
énormément de micro-coupures qui me font à chaque fois tomber la
connexion internet si elle est en cours, et il faut aller
désalimenter/réalimenter le modem pour pouvoir reconnecter, c'est
lassant et c'est la raison de mon achat de ce moment interne, il y a
plusieurs mois, mais malheureusement, je ne saurai dire si le début des
plantages correspond à cette date vu que je ne l'avais jamais mis en
cause jusqu'à maintenant.
Le serveur est un vieux PII 233, avec 192Mo de RAM, un disque récent
80Go, carte réseau dlink 100Mb, carte modem pci olitec, carte radio FM
guillemot, pas de X installé, et beaucoup d'applis serveur tournant
dessus (postfix, inn, hylafax, samba, nfs, cups, squid/squidguard, bind,
jabber, ssh, pop3, imap, apache, mysql, icecast, mserver...). Trop ?
Je suis à l'écoute de toutes vos suggestions pour diagnostiquer enfin le
problème, et là, j'ai vraiment besoin d'experts.
Merci beaucoup d'avance.
PS : Désolé pour la longueur, mais je voulais en dire un maximum pour
avoir le maximum de chances d'avoir une aide.
J'aimerais bien que le sytème dégaine ! Mais rien ne se passe. La machine freeze : plus d'activité disk, freeze écran/souris/clavier , plus rien ne passe par le modem.
Le sujet du post initial m'a fait penser à mon propre cas. Mais les causes possibles sont nombreuses...
no_spam wrote:
le Oom-killer va dégainer
J'aimerais bien que le sytème dégaine !
Mais rien ne se passe.
La machine freeze : plus d'activité disk, freeze écran/souris/clavier , plus
rien ne passe par le modem.
Le sujet du post initial m'a fait penser à mon propre cas.
Mais les causes possibles sont nombreuses...
J'aimerais bien que le sytème dégaine ! Mais rien ne se passe. La machine freeze : plus d'activité disk, freeze écran/souris/clavier , plus rien ne passe par le modem.
Le sujet du post initial m'a fait penser à mon propre cas. Mais les causes possibles sont nombreuses...
no_spam
On Thu, 12 Feb 2004 10:03:53 +0100, Lsom wrote:
no_spam wrote:
le Oom-killer va dégainer
J'aimerais bien que le sytème dégaine ! Mais rien ne se passe. La machine freeze : plus d'activité disk, freeze écran/souris/clavier, plus rien ne passe par le modem.
Si la led numlock ne marche plus, ou si son comportement est erratique, le PC est complètement planté et le kernel ne tourne plus. Dans ce cas, il me parait difficile d'incriminer une application. Il reste deux solutions: - bug kernel - pb matériel. Le cas du bug kernel est facilement d&tectable si on a une console (même par port série) sur la machine: il y aura un Ooops au moment du crash. S'il n'y en a pas, il ne reste que deux solutions: - boucle infinie dans un driver dans une routine qui tourne avec les interruptions désactivées... Il y a peu de candidats... - plantage matériel.
On Thu, 12 Feb 2004 10:03:53 +0100, Lsom wrote:
no_spam wrote:
le Oom-killer va dégainer
J'aimerais bien que le sytème dégaine !
Mais rien ne se passe.
La machine freeze : plus d'activité disk, freeze écran/souris/clavier, plus
rien ne passe par le modem.
Si la led numlock ne marche plus, ou si son comportement est erratique,
le PC est complètement planté et le kernel ne tourne plus.
Dans ce cas, il me parait difficile d'incriminer une application.
Il reste deux solutions:
- bug kernel
- pb matériel.
Le cas du bug kernel est facilement d&tectable si on a une console
(même par port série) sur la machine:
il y aura un Ooops au moment du crash.
S'il n'y en a pas, il ne reste que deux solutions:
- boucle infinie dans un driver dans une routine qui tourne avec
les interruptions désactivées... Il y a peu de candidats...
- plantage matériel.
J'aimerais bien que le sytème dégaine ! Mais rien ne se passe. La machine freeze : plus d'activité disk, freeze écran/souris/clavier, plus rien ne passe par le modem.
Si la led numlock ne marche plus, ou si son comportement est erratique, le PC est complètement planté et le kernel ne tourne plus. Dans ce cas, il me parait difficile d'incriminer une application. Il reste deux solutions: - bug kernel - pb matériel. Le cas du bug kernel est facilement d&tectable si on a une console (même par port série) sur la machine: il y aura un Ooops au moment du crash. S'il n'y en a pas, il ne reste que deux solutions: - boucle infinie dans un driver dans une routine qui tourne avec les interruptions désactivées... Il y a peu de candidats... - plantage matériel.
Lsom
no_spam wrote:
Si la led numlock ne marche plus,
C'est le cas.
Dans ce cas, il me parait difficile d'incriminer une application. Il reste deux solutions: - bug kernel - pb matériel.
Ca le fait sur les kernels 2.4.22 et 2.4.23. Ca se saurait si il y avait un tel pb sur le kernel. En tout cas c'est reproductible à volonté et quand la ram est saturé e.
Pour mon utilisation perso, je fais avec. Je veille a être à jour sur le noyau et les drivers si ca pouvait ré soudre le pb.
no_spam wrote:
Si la led numlock ne marche plus,
C'est le cas.
Dans ce cas, il me parait difficile d'incriminer une application.
Il reste deux solutions:
- bug kernel
- pb matériel.
Ca le fait sur les kernels 2.4.22 et 2.4.23. Ca se saurait si il y avait un tel
pb sur le kernel.
En tout cas c'est reproductible à volonté et quand la ram est saturé e.
Pour mon utilisation perso, je fais avec.
Je veille a être à jour sur le noyau et les drivers si ca pouvait ré soudre le
pb.
Dans ce cas, il me parait difficile d'incriminer une application. Il reste deux solutions: - bug kernel - pb matériel.
Ca le fait sur les kernels 2.4.22 et 2.4.23. Ca se saurait si il y avait un tel pb sur le kernel. En tout cas c'est reproductible à volonté et quand la ram est saturé e.
Pour mon utilisation perso, je fais avec. Je veille a être à jour sur le noyau et les drivers si ca pouvait ré soudre le pb.
Lsom
Lsom wrote:
Ca le fait sur les kernels 2.4.22 et 2.4.23. Ca se saurait si il y avai t un tel pb sur le kernel.
Je pense à un truc : comme je compile moi-meme mes noyaux, je n'ai peut etre pas mis les options appropriées pour permettre au noyau de gérer mon cas de saturation de ram... Faudra que j'aille faire un tour dans la doc...
Lsom wrote:
Ca le fait sur les kernels 2.4.22 et 2.4.23. Ca se saurait si il y avai t un tel
pb sur le kernel.
Je pense à un truc : comme je compile moi-meme mes noyaux, je n'ai peut etre
pas mis les options appropriées pour permettre au noyau de gérer mon cas de
saturation de ram...
Faudra que j'aille faire un tour dans la doc...
Ca le fait sur les kernels 2.4.22 et 2.4.23. Ca se saurait si il y avai t un tel pb sur le kernel.
Je pense à un truc : comme je compile moi-meme mes noyaux, je n'ai peut etre pas mis les options appropriées pour permettre au noyau de gérer mon cas de saturation de ram... Faudra que j'aille faire un tour dans la doc...
Lsom
Christophe PEREZ wrote:
La fréquence de 30sec, c'est bon ?
C'est pour cela que je te faisais remarquer que c'est a priori une fuite lente ! Donc faire un free 5, 10 ou 30 min avant devrait largement suffire.
Perso, je ne connais quasi rein en shell donc je fais avec ce que j'ai : while true do free > free.log sleep 300 done
Je ne saurais pas en faire plus ! :( Mais en l'occurence ca me semble suffire. Ceci dit, si tu veux 13 Mo de log... ;)
Let's go ! suspens...
Christophe PEREZ wrote:
La fréquence de 30sec, c'est bon ?
C'est pour cela que je te faisais remarquer que c'est a priori une fuite lente
!
Donc faire un free 5, 10 ou 30 min avant devrait largement suffire.
Perso, je ne connais quasi rein en shell donc je fais avec ce que j'ai :
while true
do
free > free.log
sleep 300
done
Je ne saurais pas en faire plus ! :(
Mais en l'occurence ca me semble suffire.
Ceci dit, si tu veux 13 Mo de log... ;)
C'est pour cela que je te faisais remarquer que c'est a priori une fuite lente ! Donc faire un free 5, 10 ou 30 min avant devrait largement suffire.
Perso, je ne connais quasi rein en shell donc je fais avec ce que j'ai : while true do free > free.log sleep 300 done
Je ne saurais pas en faire plus ! :( Mais en l'occurence ca me semble suffire. Ceci dit, si tu veux 13 Mo de log... ;)
Let's go ! suspens...
no_spam
On Thu, 12 Feb 2004 11:46:52 +0100, Lsom wrote:
Lsom wrote:
Ca le fait sur les kernels 2.4.22 et 2.4.23. Ca se saurait si il y avait un tel pb sur le kernel.
Je pense que si le problème est de cet ordre, ça ne peut être qu'un driver buggé. Mais ça reste peu probable. Mais si c'est le cas, il peut très bien ne pas évoluer pendant assez longtemps...
Je pense à un truc : comme je compile moi-meme mes noyaux, je n'ai peut etre pas mis les options appropriées pour permettre au noyau de gérer mon cas de saturation de ram... Faudra que j'aille faire un tour dans la doc...
Je viens de vérifier: dans les 2.4 récents officiels, le oom-killer est toujours compilé. Donc, il n'y a pas d'option particulière à activer: la seule option concernant la gestion mémoire (dans /usr/src/linux/mm) est le support de HIGHMEM (pour utiliser plus de 800 et quelques Mo de mémoire).
On Thu, 12 Feb 2004 11:46:52 +0100, Lsom wrote:
Lsom wrote:
Ca le fait sur les kernels 2.4.22 et 2.4.23. Ca se saurait si il y avait un tel
pb sur le kernel.
Je pense que si le problème est de cet ordre, ça ne peut être qu'un
driver buggé. Mais ça reste peu probable. Mais si c'est le cas,
il peut très bien ne pas évoluer pendant assez longtemps...
Je pense à un truc : comme je compile moi-meme mes noyaux, je n'ai peut etre
pas mis les options appropriées pour permettre au noyau de gérer mon cas de
saturation de ram...
Faudra que j'aille faire un tour dans la doc...
Je viens de vérifier: dans les 2.4 récents officiels, le oom-killer
est toujours compilé. Donc, il n'y a pas d'option particulière à
activer: la seule option concernant la gestion mémoire
(dans /usr/src/linux/mm) est le support de HIGHMEM (pour utiliser
plus de 800 et quelques Mo de mémoire).
Ca le fait sur les kernels 2.4.22 et 2.4.23. Ca se saurait si il y avait un tel pb sur le kernel.
Je pense que si le problème est de cet ordre, ça ne peut être qu'un driver buggé. Mais ça reste peu probable. Mais si c'est le cas, il peut très bien ne pas évoluer pendant assez longtemps...
Je pense à un truc : comme je compile moi-meme mes noyaux, je n'ai peut etre pas mis les options appropriées pour permettre au noyau de gérer mon cas de saturation de ram... Faudra que j'aille faire un tour dans la doc...
Je viens de vérifier: dans les 2.4 récents officiels, le oom-killer est toujours compilé. Donc, il n'y a pas d'option particulière à activer: la seule option concernant la gestion mémoire (dans /usr/src/linux/mm) est le support de HIGHMEM (pour utiliser plus de 800 et quelques Mo de mémoire).
Vous croyez que je peux commencer à me réjouïr et surtout à être rassuré ? Personnellement, je pense que oui... Je ne suis pas venu ici pour écrire ça mais pour indiquer ce qui, selon moi, a finalement résolu le problème.
Maintenant, je commence à me poser des question sur le modem pci. Est-il possible que ce soit lui qui plante tout comme ça à cause d'une défaillance de sa part ?
En effet, depuis que je suis passé du driver beta (gratuit) du modem, au dernier driver (payant), je n'ai plus eu un seul plantage.
Vous croyez que je peux commencer à me réjouïr et surtout à être
rassuré ?
Personnellement, je pense que oui...
Je ne suis pas venu ici pour écrire ça mais pour indiquer ce qui, selon
moi, a finalement résolu le problème.
Maintenant, je commence à me poser des question sur le modem pci. Est-il
possible que ce soit lui qui plante tout comme ça à cause d'une
défaillance de sa part ?
En effet, depuis que je suis passé du driver beta (gratuit) du modem, au
dernier driver (payant), je n'ai plus eu un seul plantage.
Vous croyez que je peux commencer à me réjouïr et surtout à être rassuré ? Personnellement, je pense que oui... Je ne suis pas venu ici pour écrire ça mais pour indiquer ce qui, selon moi, a finalement résolu le problème.
Maintenant, je commence à me poser des question sur le modem pci. Est-il possible que ce soit lui qui plante tout comme ça à cause d'une défaillance de sa part ?
En effet, depuis que je suis passé du driver beta (gratuit) du modem, au dernier driver (payant), je n'ai plus eu un seul plantage.