Reboot intempestifs

Le
Vincent H.
Bonjour la liste,

Suite à une installation Vendredi de munin et munin-node sur mon
serveur, ce dernier est devenu extremement instable :
- Connexion ssh fermées
- plus de passerelle internet, bref le neant.
je reboot je reprends la main et je désinstalle munin en me disant que
le problème vient surement de ce nouveau logiciel.

La désinstallation se passe moyennement bien car suite à un
aptitude remove munin munin-node
j'avais encore des executions par /usr/sbin/cron dans mes log (syslog)
je finis de tout virer à coup de
dpkg --purge et de locate munin

Cependant, depuis ces operations, mon serveur reboot sans arrêt
Peut-être que munin n'était pas la cause et que les reboot sont
arrivés en même temps par pure coincidence alors?

Néanmoins voici mon syslog de l'instant, juste avant un reboot:

Oct 22 09:49:13 thargos ntpd[2774]: synchronized to 88.191.12.184, stratum =
2
Oct 22 09:49:13 thargos ntpd[2774]: kernel time sync enabled 0001
Oct 22 09:58:47 thargos ntpd[2774]: synchronized to 88.191.14.223, stratum =
2
Oct 22 10:12:38 thargos syslogd 1.4.1#18: restart.

un autre

Oct 22 10:13:00 thargos ntpd[4157]: synchronized to 88.191.19.23, stratum 2
Oct 22 10:13:00 thargos ntpd[4157]: kernel time sync enabled 0001
Oct 22 10:17:01 thargos /USR/SBIN/CRON[4297]: (root) CMD ( cd / &&
run-parts --report /etc/cron.hourly)
Oct 22 10:19:05 thargos syslogd 1.4.1#18: restart.

Clairement, je manque d'info.

Je ne sais pas trop où chercher ce qui fait rebooter mon serveur.
Mais c'est souvent suite à un /USR/SBIN/CRON

Or j'ai regardé dans le crontab du root et je n'ai rien de planifié
qui fasse rebooter la machine toutes les 5 minutes.
D'ailleurs je n'ai pas touché au crontab du root depuis des mois.

Quelqu'un aurait-il une piste s'il vous plait?

Dernière info sur munin. Après un updatedb, locate munin me donne ça:

[vincent][0]~$ locate munin
/var/cache/apt/archives/munin_1.2.5-1_all.deb
/var/cache/apt/archives/munin-node_1.2.5-1_all.deb
[vincent][0]~$

Donc je pense que de ce côté c'est clean (?)

Merci d'avance!
--
Vincent H
Vidéos High-Tech et Jeu Vidéo
Téléchargements
Vos réponses Page 1 / 3
Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
Daniel Caillibaud
Le #9617791
Vincent H. a écrit :
Cependant, depuis ces operations, mon serveur reboot sans arrêt...
Peut-être que munin n'était pas la cause et que les reboot sont
arrivés en même temps par pure coincidence alors?



Ou alors une dépendance installée par munin qui resterait.
Tu as installé munin avec aptitude ?
Si oui, regarde le log

Tu peux aussi regarder
ls -tl /var/cache/apt/archives/|head
pour regarder les dernier deb téléchargés.

Néanmoins voici mon syslog de l'instant, juste avant un reboot:

Oct 22 09:49:13 thargos ntpd[2774]: synchronized to 88.191.12.184, stratum 2
Oct 22 09:49:13 thargos ntpd[2774]: kernel time sync enabled 0001
Oct 22 09:58:47 thargos ntpd[2774]: synchronized to 88.191.14.223, stratum 2
Oct 22 10:12:38 thargos syslogd 1.4.1#18: restart.



10 min pour une synchro ntp, c'est bizarre...

un autre

Oct 22 10:13:00 thargos ntpd[4157]: synchronized to 88.191.19.23, stratum 2
Oct 22 10:13:00 thargos ntpd[4157]: kernel time sync enabled 0001
Oct 22 10:17:01 thargos /USR/SBIN/CRON[4297]: (root) CMD ( cd / &&
run-parts --report /etc/cron.hourly)
Oct 22 10:19:05 thargos syslogd 1.4.1#18: restart.



Pourquoi ton syslog redémarre toutes les 7 min ?

Clairement, je manque d'info....

Je ne sais pas trop où chercher ce qui fait rebooter mon serveur.
Mais c'est souvent suite à un /USR/SBIN/CRON



Donc regarde
/etc/crontab
et
/etc/cron*/*

Or j'ai regardé dans le crontab du root et je n'ai rien de planifié
qui fasse rebooter la machine toutes les 5 minutes.
D'ailleurs je n'ai pas touché au crontab du root depuis des mois.

Quelqu'un aurait-il une piste s'il vous plait?

Dernière info sur munin. Après un updatedb, locate munin me donne ça:

[vincent][0]~$ locate munin
/var/cache/apt/archives/munin_1.2.5-1_all.deb
/var/cache/apt/archives/munin-node_1.2.5-1_all.deb
[vincent][0]~$

Donc je pense que de ce côté c'est clean (?)



Oui.

--
Daniel


--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Vincent H.
Le #9617781
Merci Daniel pour ta réponse rapide.

On 10/22/07, Daniel Caillibaud
Ou alors une dépendance installée par munin qui resterait.
Tu as installé munin avec aptitude ?
Si oui, regarde le log



Dans le log j'ai trouvé ceci d'interressant :
[INSTALLÉ, DÉPENDANCES] libart-2.0-2
[INSTALLÉ, DÉPENDANCES] libdate-manip-perl
[INSTALLÉ, DÉPENDANCES] libhtml-template-perl
[INSTALLÉ, DÉPENDANCES] libio-multiplex-perl
[INSTALLÉ, DÉPENDANCES] libnet-cidr-perl
[INSTALLÉ, DÉPENDANCES] libnet-server-perl
[INSTALLÉ, DÉPENDANCES] libnet-snmp-perl
[INSTALLÉ, DÉPENDANCES] librrd2
[INSTALLÉ, DÉPENDANCES] librrds-perl
[INSTALLÉ, DÉPENDANCES] rrdtool
[INSTALLÉ, DÉPENDANCES] ttf-dejavu
[INSTALLÉ] munin
[INSTALLÉ] munin-node

et plus bas les memes dépendances retirées sauf ttf-dejavu que je
viens de retirer avec un aptitude remove (meme si ce n'est qu'une
police apparement).


Tu peux aussi regarder
ls -tl /var/cache/apt/archives/|head
pour regarder les dernier deb téléchargés.



De ce côté ça a l'air ok puisque je ne retrouve pas munin ni aucun
paquets des dépendances. De plus le fichier le plus récent date du
13/10 et j'ai installé munin le 19/10.


10 min pour une synchro ntp, c'est bizarre...




Oui c'est peut-être un peu rapide. Il faudrait que je regarde ma
config mais ça tourne comme ça depuis un bail a priori, j'ai configur é
ça il y a des mois.


Pourquoi ton syslog redémarre toutes les 7 min ?




Parce que mon serveur est resté allumé 7 minutes :)
Ce qui ne facilite pas ma tâche à distance ....

> Dernière info sur munin. Après un updatedb, locate munin me donne ça:
>
> [vincent][0]~$ locate munin
> /var/cache/apt/archives/munin_1.2.5-1_all.deb
> /var/cache/apt/archives/munin-node_1.2.5-1_all.deb
> [vincent][0]~$
>
> Donc je pense que de ce côté c'est clean (?)

Oui.



ok :)

j'ai également coupé apache2 et plusieurs services ouvert sur le net
mais les reboot persistent...

Il reste de la place sur mon / (même si il est bien plein...)
Je continue mes recherches...
--
Vincent H
"Early Optimization is the root of all evil" - Donald Knuth
Gilles Mocellin
Le #9617771
--nextPart1444025.Rep4YiM3hm
Content-Type: text/plain;
charset="utf-8"
Content-Transfer-Encoding: quoted-printable
Content-Disposition: inline

Le Monday 22 October 2007 11:18:09 Daniel Caillibaud, vous avez écrit  :
Vincent H. a écrit :


[...]
> Oct 22 10:13:00 thargos ntpd[4157]: synchronized to 88.191.19.23, strat um
> 2 Oct 22 10:13:00 thargos ntpd[4157]: kernel time sync enabled 0001 Oct
> 22 10:17:01 thargos /USR/SBIN/CRON[4297]: (root) CMD ( cd / &&
> run-parts --report /etc/cron.hourly)
> Oct 22 10:19:05 thargos syslogd 1.4.1#18: restart.

Pourquoi ton syslog redémarre toutes les 7 min ?



Je pense que c'est justement après le reboot.

Donc, le syslog n'a rien écrit avant le redémarrage, c'est un bea u plantage.
Je soupçonnerais d'emblée la mémoire.
Un petit coup de memtest86++ permettrait d'en savoir plus.

--nextPart1444025.Rep4YiM3hm
Content-Type: application/pgp-signature; name=signature.asc
Content-Description: This is a digitally signed message part.

-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.4.6 (GNU/Linux)

iD8DBQBHHG6NDltnDmLJYdARAvQWAJ47N2E8qo8xtbxTb9orUSX/Li9IXgCbBsnS
EvGeCwAm+NmYjUDTyZSXpA0 =OHWU
-----END PGP SIGNATURE-----

--nextPart1444025.Rep4YiM3hm--


--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Vincent H.
Le #9617751
On 10/22/07, Gilles Mocellin
Je pense que c'est justement après le reboot.




exact.
Donc, le syslog n'a rien écrit avant le redémarrage, c'est un beau pl antage.
Je soupçonnerais d'emblée la mémoire.
Un petit coup de memtest86++ permettrait d'en savoir plus.



ok merci pour ta réponse également :)
je vais tenter ça

Sinon le contenu de /etc/crontab est le suivant:

# /etc/crontab: system-wide crontab
# Unlike any other crontab you don't have to run the `crontab'
# command to install the new version when you edit this file
# and files in /etc/cron.d. These files also have username fields,
# that none of the other crontabs do.

SHELL=/bin/sh
PATH=/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin

# m h dom mon dow user command
17 * * * * root cd / && run-parts --report /etc/cron.hourly
25 6 * * * root test -x /usr/sbin/anacron || ( cd / &&
run-parts --report /etc/cron.daily )
47 6 * * 7 root test -x /usr/sbin/anacron || ( cd / &&
run-parts --report /etc/cron.weekly )
52 6 1 * * root test -x /usr/sbin/anacron || ( cd / &&
run-parts --report /etc/cron.monthly )
#

mais bon le fichier date du 20 12 2006

--
Vincent H
"Early Optimization is the root of all evil" - Donald Knuth
Vincent H.
Le #9617731
> On 10/22/07, Gilles Mocellin > Un petit coup de memtest86++ permettrait d'en savoir plus.




Est-il possible de booter sur memtest86, faire une serie de test (qui
log le tout quelque part) et ensuite rebooter automatiquement le
serveur pour me permettre d'avoir à nouveau la main et finalement
étudier les logs?

J'ai installé memtest86, il s'est à priori rajouté tout seul dans gru b
(j'ai pas eu le temps de lire le fichier menu.lst en entier mais j'ai
pu trouver un memtest86 dedans)

--
Vincent H
"Early Optimization is the root of all evil" - Donald Knuth
Gilles Mocellin
Le #9617701
--nextPart1862063.4R7WQPyXLv
Content-Type: text/plain;
charset="iso-8859-1"
Content-Transfer-Encoding: quoted-printable
Content-Disposition: inline

Le Monday 22 October 2007 11:54:40 Vincent H., vous avez écrit :
> On 10/22/07, Gilles Mocellin > > Un petit coup de memtest86++ permettrait d'en savoir plus.

Est-il possible de booter sur memtest86, faire une serie de test (qui
log le tout quelque part) et ensuite rebooter automatiquement le
serveur pour me permettre d'avoir à nouveau la main et finalement
étudier les logs?

J'ai installé memtest86, il s'est à priori rajouté tout seul dans g rub
(j'ai pas eu le temps de lire le fichier menu.lst en entier mais j'ai
pu trouver un memtest86 dedans)



Si tu n'as pas la main sur la console (KVM réseau, console série via
réseau...) ça va être dur.

Sinon, tu peux essayer en live memtester, en lui faisant tester une bonne
partie de ta mémoire (pas toute, sinon ça va tout bloquer).
Si le serveur plante systématiquement en lançant un test mémoire....
Par contre, tu ne sauras pas quelle barrette, là il faudra être sur pla ce et
tester chaque barrette toute seule.

--nextPart1862063.4R7WQPyXLv
Content-Type: application/pgp-signature; name=signature.asc
Content-Description: This is a digitally signed message part.

-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.4.6 (GNU/Linux)

iD8DBQBHHH36DltnDmLJYdARAlP0AKCZhBPF5Wq8U47EcO3m4scfvuW0dgCfTh8A
mb8zl3RPlUAHuDULw+agMVc =zeIL
-----END PGP SIGNATURE-----

--nextPart1862063.4R7WQPyXLv--


--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Vincent H.
Le #9617661
On 10/22/07, Gilles Mocellin
Si tu n'as pas la main sur la console (KVM réseau, console série via
réseau...) ça va être dur.

Sinon, tu peux essayer en live memtester, en lui faisant tester une bonne
partie de ta mémoire (pas toute, sinon ça va tout bloquer).
Si le serveur plante systématiquement en lançant un test mémoire... .
Par contre, tu ne sauras pas quelle barrette, là il faudra être sur p lace et
tester chaque barrette toute seule.




Merci pour les infos :)
Je vais voir du côté de memtester. Sinon je testerais tout ça ce soir .
Je crois qu'il n'y a qu'une barrette de ram sur cette machine... 128Mo... :-/
Merci encore.

--
Vincent H
"Early Optimization is the root of all evil" - Donald Knuth
Eric DECORNOD
Le #9617611
Le lundi 22 octobre 2007, Vincent H. a écrit :
On 10/22/07, Gilles Mocellin Merci pour les infos :)
Je vais voir du côté de memtester. Sinon je testerais tout ça ce so ir.
Je crois qu'il n'y a qu'une barrette de ram sur cette machine... 128Mo...
:-/ Merci encore.



Si le système a pas beaucoup de ram et que le swap est plein (oui ça pe ut
arriver ;-) le système marche plus très très bien, mais de mes souven irs, il
en reste alors des traces dans les logs (notament kern.log).

Peut-être des badblocks sur le swap ? (mais cela risque d'être un peu d ur à
vérifier en moins de 7mn !)

Cordialement,
--
Eric DÉCORNOD
Vincent H.
Le #9617571
On 10/22/07, Eric DECORNOD
Si le système a pas beaucoup de ram et que le swap est plein (oui ça peut
arriver ;-) le système marche plus très très bien, mais de mes souv enirs, il
en reste alors des traces dans les logs (notament kern.log).



C'est fort possible aussi!
Au final j'ai 192 Mo de ram et il me reste 900 Mo de place sur /

Et étrangement c'est toujours les mêmes lignes que je retrouve dans
kern.log au moment du reboot :

Oct 22 12:51:33 thargos kernel: eth0: link up, 100Mbps, full-duplex, lpa 0x 45E1
Oct 22 12:51:33 thargos kernel: eth1: setting full-duplex.
Oct 22 12:51:33 thargos kernel: NET: Registered protocol family 10
Oct 22 12:51:33 thargos kernel: lo: Disabled Privacy Extensions
Oct 22 12:51:33 thargos kernel: IPv6 over IPv4 tunneling driver
Oct 22 12:51:39 thargos kernel: lp0: using parport0 (interrupt-driven).
Oct 22 12:51:39 thargos kernel: ppdev: user-space parallel port driver
Oct 22 12:51:40 thargos kernel: eth0: no IPv6 routers present
Oct 22 12:51:40 thargos kernel: eth1: no IPv6 routers present
Oct 22 13:01:37 thargos kernel: klogd 1.4.1#18, log source = /proc/kmsg s tarted.

En tout cas les 2 dernières lignes avant le reboot : no IPv6 routers pres ent


Peut-être des badblocks sur le swap ? (mais cela risque d'être un peu dur à
vérifier en moins de 7mn !)



Comment vérifier? avec fsck?
Je crois que mon serveur l'a fait automatiquement au bout de 30 mount hier soir.

Un autre truc bizarre, depuis que j'ai lancé des tests avec memtester
(sur 64 Mo), la machine ne reboot plus! Actuellement 15 tests passés
sans erreur (sur 1/3 de la ram)

--
Vincent H
"Early Optimization is the root of all evil" - Donald Knuth
Dominique Arpin
Le #9617561
> On 10/22/07, Eric DECORNOD
Si le système a pas beaucoup de ram et que le swap est plein (oui ça
peut
arriver ;-) le système marche plus très très bien, mais de mes
souvenirs, il
en reste alors des traces dans les logs (notament kern.log).



C'est fort possible aussi!
Au final j'ai 192 Mo de ram et il me reste 900 Mo de place sur /

Et étrangement c'est toujours les mêmes lignes que je retrouve dans
kern.log au moment du reboot :

Oct 22 12:51:33 thargos kernel: eth0: link up, 100Mbps, full-duplex, lpa
0x45E1
Oct 22 12:51:33 thargos kernel: eth1: setting full-duplex.
Oct 22 12:51:33 thargos kernel: NET: Registered protocol family 10
Oct 22 12:51:33 thargos kernel: lo: Disabled Privacy Extensions
Oct 22 12:51:33 thargos kernel: IPv6 over IPv4 tunneling driver
Oct 22 12:51:39 thargos kernel: lp0: using parport0 (interrupt-driven).
Oct 22 12:51:39 thargos kernel: ppdev: user-space parallel port driver
Oct 22 12:51:40 thargos kernel: eth0: no IPv6 routers present
Oct 22 12:51:40 thargos kernel: eth1: no IPv6 routers present
Oct 22 13:01:37 thargos kernel: klogd 1.4.1#18, log source = /proc/kmsg
started.

En tout cas les 2 dernières lignes avant le reboot : no IPv6 routers
present


Peut-être des badblocks sur le swap ? (mais cela risque d'être un peu
dur à
vérifier en moins de 7mn !)



Comment vérifier? avec fsck?
Je crois que mon serveur l'a fait automatiquement au bout de 30 mount hier
soir.



reformater la swap avec l'option -c?

mkswap -c /dev/partition

ou utiliser ce script:
http://www.faqs.org/docs/Linux-mini/Swap-Space.html#s9

Un autre truc bizarre, depuis que j'ai lancé des tests avec memtester
(sur 64 Mo), la machine ne reboot plus! Actuellement 15 tests passés
sans erreur (sur 1/3 de la ram)

--
Vincent H
"Early Optimization is the root of all evil" - Donald Knuth






--
Dominique Arpin, administrateur réseau
A+,Linux+,Server+,MCP
Espace Courbe inc. http://www.espacecourbe.com/
642 de Courcelle, bureau 303, Montréal (Québec), Canada H4C 3C5
tél.: (514) 933-9861 téléc.: (514) 933-9546


--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Publicité
Poster une réponse
Anonyme