OVH Cloud OVH Cloud

plantages serveur à répétition

17 réponses
Avatar
Laurent
Bonjour,

Depuis une semaine nous sommes confrontés à problème sérieux avec notre
dédié sous redhat 7.2
La hotline n'a pas pu me donner de réponse satisfaisante.
Voilà notre souci :

Il reboote toutes les 5 minutes sans raison apparente

En fait cela a commencé le 12 juin et va en s'empirant.
Nous sommes victime de spam sur un de nos sites depuis le milieu de semaine
dernière; la queue de qmail comportait 35000 mails.
la hotline m'a dit que cela venait de la.
J'ai purgé la queue, reconfiguré qmail pour qu'il refuse tout courrier à
destination de ce site.
Le spam a stoppé net évidemment, mais les reboots continuent.
J'ai même arrêté qmail depuis 2h du matin, rien de plus.

Je vous passe tous les détails de la discussion technique avec le
hotliner...
Voilà le topo :

tous les patchs correctifs de sécurité appliqués
pas d'infection trouvée après un scan complet
pas de surcharge d'après les courbes MRTG
pas de problème matériel d'après les hébergeurs (2 fois vérifié)
Aucune installation hard ni soft récemment
Pas de manipulation ou de configuration logicielle récemment

Je ne sais plus ou chercher

Un grand merci à tous ceux qui pourront m'aider à sortir de cet enfer !
Laurent

10 réponses

1 2
Avatar
Laurent Levi
le bouzin reboot tout seul ?
ce n'est pas la meme chose si il reboot tout seul , ou si il se plante
lamantablement.

si il reboot tout seul ( soit tu as mis en place un systeme de reboot
automatique ( dans ce cas tu le desactives) soit c'est forcément un pb
materiel ( electrique ? )
le noyau n'etant pas programmé pour rebooter tout seul

peut être un petit malin a mis en place un cron ou un at , voir un virus!!
mais ca m'etonnerait un peu,
renome le script poweroff et shutdown , mais ca me parait louche
essaie aussi en enlevant la carte reseau au cas ou un petit malin te le
reboot via ssh


si il plante , c'est different ....



"Laurent" a écrit dans le message de
news:cbtqv7$n13$
Bonjour,

Depuis une semaine nous sommes confrontés à problème sérieux avec notre
dédié sous redhat 7.2
La hotline n'a pas pu me donner de réponse satisfaisante.
Voilà notre souci :

Il reboote toutes les 5 minutes sans raison apparente

En fait cela a commencé le 12 juin et va en s'empirant.
Nous sommes victime de spam sur un de nos sites depuis le milieu de
semaine

dernière; la queue de qmail comportait 35000 mails.
la hotline m'a dit que cela venait de la.
J'ai purgé la queue, reconfiguré qmail pour qu'il refuse tout courrier à
destination de ce site.
Le spam a stoppé net évidemment, mais les reboots continuent.
J'ai même arrêté qmail depuis 2h du matin, rien de plus.

Je vous passe tous les détails de la discussion technique avec le
hotliner...
Voilà le topo :

tous les patchs correctifs de sécurité appliqués
pas d'infection trouvée après un scan complet
pas de surcharge d'après les courbes MRTG
pas de problème matériel d'après les hébergeurs (2 fois vérifié)
Aucune installation hard ni soft récemment
Pas de manipulation ou de configuration logicielle récemment

Je ne sais plus ou chercher

Un grand merci à tous ceux qui pourront m'aider à sortir de cet enfer !
Laurent




Avatar
Laurent
Il s'agit bien d'un reboot : la commande "last" me donne des centaines de
lignes commencant par reboot.
Je n'ai pas mis de reboot automatique; pas de virus (c'est l'antivirus qui
le dit...) ni de cron suspect.
Je vais suivre les autres pistes que tu me propose.
Merci


"Laurent Levi" a écrit dans le message de
news:40e27914$0$29509$
le bouzin reboot tout seul ?
ce n'est pas la meme chose si il reboot tout seul , ou si il se plante
lamantablement.

si il reboot tout seul ( soit tu as mis en place un systeme de reboot
automatique ( dans ce cas tu le desactives) soit c'est forcément un pb
materiel ( electrique ? )
le noyau n'etant pas programmé pour rebooter tout seul

peut être un petit malin a mis en place un cron ou un at , voir un virus!!
mais ca m'etonnerait un peu,
renome le script poweroff et shutdown , mais ca me parait louche
essaie aussi en enlevant la carte reseau au cas ou un petit malin te le
reboot via ssh


si il plante , c'est different ....


Avatar
Miguel Moquillon
Bonjour,

Depuis une semaine nous sommes confrontés à problème sérieux avec notre
dédié sous redhat 7.2
La hotline n'a pas pu me donner de réponse satisfaisante.
Voilà notre souci :

Il reboote toutes les 5 minutes sans raison apparente

En fait cela a commencé le 12 juin et va en s'empirant.
Nous sommes victime de spam sur un de nos sites depuis le milieu de semaine
dernière; la queue de qmail comportait 35000 mails.
la hotline m'a dit que cela venait de la.
J'ai purgé la queue, reconfiguré qmail pour qu'il refuse tout courrier à
destination de ce site.
Le spam a stoppé net évidemment, mais les reboots continuent.
J'ai même arrêté qmail depuis 2h du matin, rien de plus.

Je vous passe tous les détails de la discussion technique avec le
hotliner...
Voilà le topo :

tous les patchs correctifs de sécurité appliqués
pas d'infection trouvée après un scan complet
pas de surcharge d'après les courbes MRTG
pas de problème matériel d'après les hébergeurs (2 fois vérifié)
Aucune installation hard ni soft récemment
Pas de manipulation ou de configuration logicielle récemment

Je ne sais plus ou chercher



Juste une question: quelle température fait il dans la pièce où est ta
babasse ?

Miguel

Avatar
GERBIER Eric
Laurent wrote:
Bonjour,

Depuis une semaine nous sommes confrontés à problème sérieux avec notre
dédié sous redhat 7.2
La hotline n'a pas pu me donner de réponse satisfaisante.
Voilà notre souci :

Il reboote toutes les 5 minutes sans raison apparente


que disent les log (/var/log/messages par exemple) juste avant le reboot ?

autre piste : verifier la temperature du processeur (avec des sondes come
lm_sensors)

Avatar
Laurent
Notre serveur se trouve dans une salle climatisée (pas dans nos locaux, chez
nos hébergeurs).
J'ose espérer que la température - que je ne connaît pas - y est optimale
pour les serveurs...

"Miguel Moquillon" a écrit dans le message
de news:40e27d53$0$25706$

Juste une question: quelle température fait il dans la pièce où est ta
babasse ?

Miguel


Avatar
Laurent
J'ai renommé les fichiers et attendu 20 minutes : 5 reboots !
Pour la carte réseau, ca va être plus dur : le serveur se trouve chez nos
hébergeurs.
Mais je vais recontacter le service technique pour trouver une solution.
Changer temporairement de serveur en gardant le même disque dur par exemple;
ca permettrai de bien dégrossir le problème.

Merci quand même !

"Laurent Levi" a écrit dans le message de
news:40e27914$0$29509$
le bouzin reboot tout seul ?
ce n'est pas la meme chose si il reboot tout seul , ou si il se plante
lamantablement.

si il reboot tout seul ( soit tu as mis en place un systeme de reboot
automatique ( dans ce cas tu le desactives) soit c'est forcément un pb
materiel ( electrique ? )
le noyau n'etant pas programmé pour rebooter tout seul

peut être un petit malin a mis en place un cron ou un at , voir un virus!!
mais ca m'etonnerait un peu,
renome le script poweroff et shutdown , mais ca me parait louche
essaie aussi en enlevant la carte reseau au cas ou un petit malin te le
reboot via ssh


si il plante , c'est different ....


Avatar
Michel Tatoute

Il s'agit bien d'un reboot : la commande "last" me donne des centaines de
lignes commencant par reboot.


on dirait un watchdog. Sur un serveur en prod ca parait logique qu'il y
ait un watchdog, peut etre meme un watchdog hard (c'est maintenant assez
courant sur les cartes meres comme les i815).

un watchdog c'est un mlachin qui est chargé de rebooter la machine si on
ne le sollicite pas régulièrement, (par exemple toutes les 5 min....
hummmm).

C'est fait pour les serveurs en prod distant pour assurer une permanence
d'un service. Je ne sais pas, mais au hasard, un srevice de mail....


Michel.

Avatar
Licence IV
Le Wed, 30 Jun 2004 09:43:54 +0200, après mûre réflexion,
Laurent a écrit:
Il reboote toutes les 5 minutes sans raison apparente


Mais la raison existe! :-)

Tu disais dans un autre post que c'est la commande reboot qui est
exécutée.
battons nous à armes égales alors:
- reboot appelle shutdown avec l'option -r
- man shutdown me dit: -c Cancel an already running shutdown.
- Tu te fais un petit script qui lance shutdown -c toutes les secondes!

Cela n'est pas fait pour réparer, mais pour te permettre de bosser sans
avoir les reboot qui t'embètent...

Après pour savoir ce qui se passe, regarde les programmes qui tournent
et qui ne devraient pas:
ps -wauxf
top
pstree
devraient t'aider dans ton investigation.

En fait cela a commencé le 12 juin et va en s'empirant.
Nous sommes victime de spam sur un de nos sites depuis le milieu de semaine
dernière; la queue de qmail comportait 35000 mails.
la hotline m'a dit que cela venait de la.
J'ai purgé la queue, reconfiguré qmail pour qu'il refuse tout courrier à
destination de ce site.
Le spam a stoppé net évidemment, mais les reboots continuent.
J'ai même arrêté qmail depuis 2h du matin, rien de plus.

tous les patchs correctifs de sécurité appliqués


Ont ils été appliqué après la découverte du problème, ou au fur et à
mesure que les alertes de sécurités arrivaient (comme cela devrait être
fait!)?
Car si cela vient d'une personne mal intentionnée, elle s'est sans doute
protégée vis à vis des mises à jour des failles de sécurité qui lui ont
permis d'entrer...
Donc si les patchs ont été appliqués après la découverte du problème,
une réinstallation est à envisager très sérieusement.

pas d'infection trouvée après un scan complet


Avec quoi as tu scanné?

Pour moi, cette histoire ne sent pas bon du tout! Je te conseillerais de
réinstaller une machine pour remplacer les services (mail) de cette
machine; et tu gardes l'ancienne dans un coin histoire de l'étudier d'un
peu plus près.

--
Nicolas de Ferrières Mail:
_______________________________________________________________
Si l'alcool ne me tue pas... Les femmes auront ma peau

Avatar
Laurent
"Licence IV" a écrit dans le message de
news:

- Tu te fais un petit script qui lance shutdown -c toutes les secondes!

Cela n'est pas fait pour réparer, mais pour te permettre de bosser sans
avoir les reboot qui t'embètent...


Intéressant mais le premier shutdown qui sera lancé sera bien exécuté lui,
non ?
La bécane ne va-t-elle donc pas s'arrêter ?

Après pour savoir ce qui se passe, regarde les programmes qui tournent
et qui ne devraient pas:
ps -wauxf
top
pstree
devraient t'aider dans ton investigation.


oui je vais essayer de zigzaguer entre les reboots pour tirer un max d'infos

Ont ils été appliqué après la découverte du problème, ou au fur et à
mesure que les alertes de sécurités arrivaient (comme cela devrait être
fait!)?


Les patchs ont tous été appliqués dès leur parution (dans les 30 min). Je ne
rigole pas avec ça !

Avec quoi as tu scanné?
antivir / linux version 2.1.1



Pour moi, cette histoire ne sent pas bon du tout! Je te conseillerais de
réinstaller une machine pour remplacer les services (mail) de cette
machine; et tu gardes l'ancienne dans un coin histoire de l'étudier d'un
peu plus près.
Argh ! je me garde cette solution en dernier...


Merci pour ta contribution

Avatar
Emmanuel Florac
Le Wed, 30 Jun 2004 11:24:28 +0200, Laurent a écrit :

Mais je vais recontacter le service technique pour trouver une solution.
Changer temporairement de serveur en gardant le même disque dur par exemple;
ca permettrai de bien dégrossir le problème.


De toute façon ton serveur a été compromis, il n'y a donc qu'une
solution : backup, formatage et réinstallation totale.

--
on passe la moitié de son temps à refaire ce que l'on n'a pas eu le
temps de faire correctement.
Loi de Myers.

1 2