OVH Cloud OVH Cloud

Reboot intempestifs

23 réponses
Avatar
Vincent H.
Bonjour la liste,

Suite =E0 une installation Vendredi de munin et munin-node sur mon
serveur, ce dernier est devenu extremement instable :
- Connexion ssh ferm=E9es
- plus de passerelle internet, bref le neant.
je reboot je reprends la main et je d=E9sinstalle munin en me disant que
le probl=E8me vient surement de ce nouveau logiciel.

La d=E9sinstallation se passe moyennement bien car suite =E0 un
aptitude remove munin munin-node
j'avais encore des executions par /usr/sbin/cron dans mes log (syslog)
je finis de tout virer =E0 coup de
dpkg --purge et de locate munin

Cependant, depuis ces operations, mon serveur reboot sans arr=EAt...
Peut-=EAtre que munin n'=E9tait pas la cause et que les reboot sont
arriv=E9s en m=EAme temps par pure coincidence alors?

N=E9anmoins voici mon syslog de l'instant, juste avant un reboot:

Oct 22 09:49:13 thargos ntpd[2774]: synchronized to 88.191.12.184, stratum =
2
Oct 22 09:49:13 thargos ntpd[2774]: kernel time sync enabled 0001
Oct 22 09:58:47 thargos ntpd[2774]: synchronized to 88.191.14.223, stratum =
2
Oct 22 10:12:38 thargos syslogd 1.4.1#18: restart.

un autre

Oct 22 10:13:00 thargos ntpd[4157]: synchronized to 88.191.19.23, stratum 2
Oct 22 10:13:00 thargos ntpd[4157]: kernel time sync enabled 0001
Oct 22 10:17:01 thargos /USR/SBIN/CRON[4297]: (root) CMD ( cd / &&
run-parts --report /etc/cron.hourly)
Oct 22 10:19:05 thargos syslogd 1.4.1#18: restart.

Clairement, je manque d'info....

Je ne sais pas trop o=F9 chercher ce qui fait rebooter mon serveur.
Mais c'est souvent suite =E0 un /USR/SBIN/CRON

Or j'ai regard=E9 dans le crontab du root et je n'ai rien de planifi=E9
qui fasse rebooter la machine toutes les 5 minutes.
D'ailleurs je n'ai pas touch=E9 au crontab du root depuis des mois.

Quelqu'un aurait-il une piste s'il vous plait?

Derni=E8re info sur munin. Apr=E8s un updatedb, locate munin me donne =E7a:

[vincent][0]~$ locate munin
/var/cache/apt/archives/munin_1.2.5-1_all.deb
/var/cache/apt/archives/munin-node_1.2.5-1_all.deb
[vincent][0]~$

Donc je pense que de ce c=F4t=E9 c'est clean (?)

Merci d'avance!
--=20
Vincent H

3 réponses

1 2 3
Avatar
Vincent H.
Bonjour et merci pour ta réponse.

On 10/22/07, Jean-Yves F. Barbier wrote:
c'est memtest86+ qu'il faut installer; par ailleurs, il existe en
image iso bootable pour tests



Oui c'est ce que j'ai installé. J'ai testé ma RAM pendant 8h30, 17
passes de tests effectuées avec succès (0 erreur).

(mais il ne découvre pas tout: il
a fallu que je pousse la RAM au maximum pour découvrir que la corruptio n
du fs venait de la barette#2, qui ne faisait pas d'erreurs à vitesse no rmale)




Ah? Qu'entends-tu par pousser la RAM au maximum? J'ai booté sur
memtest86+ et j'ai laissé tourné les tests. J'ai regardé les réglag es
rapidement et j'ai le souvenir qu'on pouvait modifier la taille de la
ram à tester, mais il me semble que par défaut le logiciel teste toute
la ram, non?

Je vais également aller jeter un oeil sur /var/lib/dpkg/available

--
Vincent H
"Early Optimization is the root of all evil" - Donald Knuth
Avatar
Jean-Yves F. Barbier
Vincent H. a écrit :
Bonjour et merci pour ta réponse.

On 10/22/07, Jean-Yves F. Barbier wrote:
c'est memtest86+ qu'il faut installer; par ailleurs, il existe en
image iso bootable pour tests



Oui c'est ce que j'ai installé. J'ai testé ma RAM pendant 8h30, 17
passes de tests effectuées avec succès (0 erreur).

(mais il ne découvre pas tout: il
a fallu que je pousse la RAM au maximum pour découvrir que la corrup tion
du fs venait de la barette#2, qui ne faisait pas d'erreurs à vitesse normale)




Ah? Qu'entends-tu par pousser la RAM au maximum? J'ai booté sur
memtest86+ et j'ai laissé tourné les tests. J'ai regardé les ré glages
rapidement et j'ai le souvenir qu'on pouvait modifier la taille de la
ram à tester, mais il me semble que par défaut le logiciel teste to ute
la ram, non?



sur la CM que je testais, le BIOS offrait la poss. de différents timing s:
Normal, Fast, Turbo, 10ns, 8ns, j'ai vérifié que chaque barette tenai t aussi
le 2-2-x en démarrant avec une seule barette et en regardant ce que mem test
indiquait comme chiffres) et j'ai tout mis au plus petit; et c'est là q ue les
erreurs sont apparues (en mode normal, aléatoires et dès fois rien en 9h de
burn-in, mais nombreuses et dès le test 3 (ou 4, sais'pu) en étant po ussées).

Par ailleurs, n'oublie pas que les premiers 108KB ne sont pas testés
puisqu'ils servent à héberger le programme memtest (mais tu peux ruse r en
intervertissant 2 barettes; c'est le propre de l'homme: il est pervert en vers
les petits programmes :)

JY
--
I continued wetting my bed for a long time, not just out of contrariness,
but to have the pleasure of feeling my warm urine running down my legs
and wallowing in its odor.
-- Salvador Dali
Avatar
Vincent H.
Suite et fin.

Ce week-end j'ai testé une autre alimentation, cela n'a rien changé.
J'ai pu me rendre compte que j'avais en fait 2 barettes et que mon
lshw avait bel et bien dit vrai la première fois.

Une barette de 128Mo et une de 64Mo. La 64 semblait flinguée. J'ai
testé divers emplacements mais niet.

Au final, il y avait un peu poussière... j'ai aspiré tout ça, et je
pense que j'ai dû faire mon bourrin. Résultat plus rien au démarrage.
juste un toc toc toc toc toc dans le haut parleur. Donc j'ai soit
achevé la carte mère, soit mes barettes. Sans doute en laissant
branché le ventilateur du processeur au moment de l'aspiration de la
poussière.

Bref, j'ai récupéré une autre carte mère avec 512Mo de ram et apr ès
quelques galère de grub (error 18) et un flashage de bios, c'est
reparti comme en 40!

Je n'ai plus aucun problème de reboot et j'ai pu installer munin.
Donc le souci était bien hardware et cela venait très probablement de l a ram.

J'ai au final changé : processeur, carte mère et ram (et carte
graphique car j'avais la flemme de les échanger). J'ai conservé les
disques, les cartes réseau et l'alim.
J'ai d'ailleurs était étonné de voir que ma debian gère cela sans
problème, elle n'a même pas sourcillé.

Enfin, je tiens à vous remercier pour tous vos conseils et toutes vos ast uces!

Bon appetit.

--
Vincent H
"Early Optimization is the root of all evil" - Donald Knuth
1 2 3