Depuis une semaine nous sommes confrontés à problème sérieux avec notre
dédié sous redhat 7.2
La hotline n'a pas pu me donner de réponse satisfaisante.
Voilà notre souci :
Il reboote toutes les 5 minutes sans raison apparente
En fait cela a commencé le 12 juin et va en s'empirant.
Nous sommes victime de spam sur un de nos sites depuis le milieu de semaine
dernière; la queue de qmail comportait 35000 mails.
la hotline m'a dit que cela venait de la.
J'ai purgé la queue, reconfiguré qmail pour qu'il refuse tout courrier à
destination de ce site.
Le spam a stoppé net évidemment, mais les reboots continuent.
J'ai même arrêté qmail depuis 2h du matin, rien de plus.
Je vous passe tous les détails de la discussion technique avec le
hotliner...
Voilà le topo :
tous les patchs correctifs de sécurité appliqués
pas d'infection trouvée après un scan complet
pas de surcharge d'après les courbes MRTG
pas de problème matériel d'après les hébergeurs (2 fois vérifié)
Aucune installation hard ni soft récemment
Pas de manipulation ou de configuration logicielle récemment
Je ne sais plus ou chercher
Un grand merci à tous ceux qui pourront m'aider à sortir de cet enfer !
Laurent
bon si dans les logs il reboot ca vient donc d'un watchdog , as tu compilé toi meme le noyau avec des options particuliere ou ajouté des modules dernierement ?
les noyaux redhat en 7.2 ne font pas ce genre de chose normalement
fait un grep -i watch * dans le repertoire /var/log pour nous en dire plus
"Laurent" a écrit dans le message de news:cbu1sp$pob$
"Licence IV" a écrit dans le message de news:
- Tu te fais un petit script qui lance shutdown -c toutes les secondes!
Cela n'est pas fait pour réparer, mais pour te permettre de bosser sans avoir les reboot qui t'embètent...
Intéressant mais le premier shutdown qui sera lancé sera bien exécuté lui, non ? La bécane ne va-t-elle donc pas s'arrêter ?
Après pour savoir ce qui se passe, regarde les programmes qui tournent et qui ne devraient pas: ps -wauxf top pstree devraient t'aider dans ton investigation.
oui je vais essayer de zigzaguer entre les reboots pour tirer un max d'infos
Ont ils été appliqué après la découverte du problème, ou au fur et à mesure que les alertes de sécurités arrivaient (comme cela devrait être fait!)?
Les patchs ont tous été appliqués dès leur parution (dans les 30 min). Je ne
rigole pas avec ça !
Avec quoi as tu scanné? antivir / linux version 2.1.1
Pour moi, cette histoire ne sent pas bon du tout! Je te conseillerais de réinstaller une machine pour remplacer les services (mail) de cette machine; et tu gardes l'ancienne dans un coin histoire de l'étudier d'un peu plus près. Argh ! je me garde cette solution en dernier...
Merci pour ta contribution
bon si dans les logs il reboot ca vient donc d'un watchdog ,
as tu compilé toi meme le noyau avec des options particuliere
ou ajouté des modules dernierement ?
les noyaux redhat en 7.2 ne font pas ce genre de chose normalement
fait un
grep -i watch *
dans le repertoire /var/log
pour nous en dire plus
"Laurent" <laurent@a_enlever.mmf-web.com> a écrit dans le message de
news:cbu1sp$pob$1@news-reader1.wanadoo.fr...
"Licence IV" <licence-IV@nospam.com.invalid> a écrit dans le message de
news:slrnce51ka.m0d.licence-IV@choam.efrei.fr...
- Tu te fais un petit script qui lance shutdown -c toutes les secondes!
Cela n'est pas fait pour réparer, mais pour te permettre de bosser sans
avoir les reboot qui t'embètent...
Intéressant mais le premier shutdown qui sera lancé sera bien exécuté lui,
non ?
La bécane ne va-t-elle donc pas s'arrêter ?
Après pour savoir ce qui se passe, regarde les programmes qui tournent
et qui ne devraient pas:
ps -wauxf
top
pstree
devraient t'aider dans ton investigation.
oui je vais essayer de zigzaguer entre les reboots pour tirer un max
d'infos
Ont ils été appliqué après la découverte du problème, ou au fur et à
mesure que les alertes de sécurités arrivaient (comme cela devrait être
fait!)?
Les patchs ont tous été appliqués dès leur parution (dans les 30 min). Je
ne
rigole pas avec ça !
Avec quoi as tu scanné?
antivir / linux version 2.1.1
Pour moi, cette histoire ne sent pas bon du tout! Je te conseillerais de
réinstaller une machine pour remplacer les services (mail) de cette
machine; et tu gardes l'ancienne dans un coin histoire de l'étudier d'un
peu plus près.
Argh ! je me garde cette solution en dernier...
bon si dans les logs il reboot ca vient donc d'un watchdog , as tu compilé toi meme le noyau avec des options particuliere ou ajouté des modules dernierement ?
les noyaux redhat en 7.2 ne font pas ce genre de chose normalement
fait un grep -i watch * dans le repertoire /var/log pour nous en dire plus
"Laurent" a écrit dans le message de news:cbu1sp$pob$
"Licence IV" a écrit dans le message de news:
- Tu te fais un petit script qui lance shutdown -c toutes les secondes!
Cela n'est pas fait pour réparer, mais pour te permettre de bosser sans avoir les reboot qui t'embètent...
Intéressant mais le premier shutdown qui sera lancé sera bien exécuté lui, non ? La bécane ne va-t-elle donc pas s'arrêter ?
Après pour savoir ce qui se passe, regarde les programmes qui tournent et qui ne devraient pas: ps -wauxf top pstree devraient t'aider dans ton investigation.
oui je vais essayer de zigzaguer entre les reboots pour tirer un max d'infos
Ont ils été appliqué après la découverte du problème, ou au fur et à mesure que les alertes de sécurités arrivaient (comme cela devrait être fait!)?
Les patchs ont tous été appliqués dès leur parution (dans les 30 min). Je ne
rigole pas avec ça !
Avec quoi as tu scanné? antivir / linux version 2.1.1
Pour moi, cette histoire ne sent pas bon du tout! Je te conseillerais de réinstaller une machine pour remplacer les services (mail) de cette machine; et tu gardes l'ancienne dans un coin histoire de l'étudier d'un peu plus près. Argh ! je me garde cette solution en dernier...
Merci pour ta contribution
Laurent Levi
peu de chance que ca soit une attaque en fait. et vu que l'antivirus ne dis rien , ca serait pas de chance que ca soit un virus cron ok at ok shutdown renomé donc si ce n'est pas un script rieur ,
propablement watchdog ( materiel ou logiciel)
cas materiel: si c'est un serveur que tu as acheté aupres de l'hebergeur , il est a meme de t'informer ce que tu as acheté ,
si c'est un serveur trés pechu , c'est possible que le bouton qui eteint la machine soit continuellement appuyé , ou bloqué
cas logiciel: souvent ca teste la presence reseau ou du genre , donc si y a 2 cartes reseau ... quel noyau tourne sur la machine?
je trouve le truc suffisament exceptionnel pour me deplacer chez l'hebergeur et voir ce qui se passe.
dis nous en plus
peu de chance que ca soit une attaque en fait.
et vu que l'antivirus ne dis rien , ca serait pas de chance que ca soit un
virus
cron ok
at ok
shutdown renomé donc si ce n'est pas un script rieur ,
propablement watchdog ( materiel ou logiciel)
cas materiel:
si c'est un serveur que tu as acheté aupres de l'hebergeur , il est a meme
de t'informer ce que tu as acheté ,
si c'est un serveur trés pechu , c'est possible que le bouton qui eteint la
machine soit continuellement appuyé , ou bloqué
cas logiciel:
souvent ca teste la presence reseau ou du genre , donc si y a 2 cartes
reseau ...
quel noyau tourne sur la machine?
je trouve le truc suffisament exceptionnel pour me deplacer chez l'hebergeur
et voir ce qui se passe.
peu de chance que ca soit une attaque en fait. et vu que l'antivirus ne dis rien , ca serait pas de chance que ca soit un virus cron ok at ok shutdown renomé donc si ce n'est pas un script rieur ,
propablement watchdog ( materiel ou logiciel)
cas materiel: si c'est un serveur que tu as acheté aupres de l'hebergeur , il est a meme de t'informer ce que tu as acheté ,
si c'est un serveur trés pechu , c'est possible que le bouton qui eteint la machine soit continuellement appuyé , ou bloqué
cas logiciel: souvent ca teste la presence reseau ou du genre , donc si y a 2 cartes reseau ... quel noyau tourne sur la machine?
je trouve le truc suffisament exceptionnel pour me deplacer chez l'hebergeur et voir ce qui se passe.
dis nous en plus
no_spam
On Wed, 30 Jun 2004 11:32:05 +0200, Michel Tatoute wrote:
Il s'agit bien d'un reboot : la commande "last" me donne des centaines de lignes commencant par reboot.
on dirait un watchdog. Sur un serveur en prod ca parait logique qu'il y ait un watchdog, peut etre meme un watchdog hard (c'est maintenant assez courant sur les cartes meres comme les i815).
S'il y a un watchdog hard, effectivement, ça peut être le cas. Si c'est un watchdog soft, il devrait y avoir des traces dans les logs puisque le reboot est fait proprement.
La solution est peut-être dans ce cas, d'essayer d'effacer /dev/watchdog. En effet, en principe, Linux n'active pas le watchdog tant qu'on n'a pas ouvert le device. Une autre solution est de refaire un kernel sans support du watchdog. Maintenant, si c'est un watchdog hard, il est peut-être devenu fou...
On Wed, 30 Jun 2004 11:32:05 +0200, Michel Tatoute wrote:
Il s'agit bien d'un reboot : la commande "last" me donne des centaines de
lignes commencant par reboot.
on dirait un watchdog. Sur un serveur en prod ca parait logique qu'il y
ait un watchdog, peut etre meme un watchdog hard (c'est maintenant assez
courant sur les cartes meres comme les i815).
S'il y a un watchdog hard, effectivement, ça peut être le cas.
Si c'est un watchdog soft, il devrait y avoir des traces dans les
logs puisque le reboot est fait proprement.
La solution est peut-être dans ce cas, d'essayer d'effacer /dev/watchdog.
En effet, en principe, Linux n'active pas le watchdog tant qu'on
n'a pas ouvert le device.
Une autre solution est de refaire un kernel sans support du watchdog.
Maintenant, si c'est un watchdog hard, il est peut-être devenu fou...
On Wed, 30 Jun 2004 11:32:05 +0200, Michel Tatoute wrote:
Il s'agit bien d'un reboot : la commande "last" me donne des centaines de lignes commencant par reboot.
on dirait un watchdog. Sur un serveur en prod ca parait logique qu'il y ait un watchdog, peut etre meme un watchdog hard (c'est maintenant assez courant sur les cartes meres comme les i815).
S'il y a un watchdog hard, effectivement, ça peut être le cas. Si c'est un watchdog soft, il devrait y avoir des traces dans les logs puisque le reboot est fait proprement.
La solution est peut-être dans ce cas, d'essayer d'effacer /dev/watchdog. En effet, en principe, Linux n'active pas le watchdog tant qu'on n'a pas ouvert le device. Une autre solution est de refaire un kernel sans support du watchdog. Maintenant, si c'est un watchdog hard, il est peut-être devenu fou...
Licence IV
Le Wed, 30 Jun 2004 11:42:05 +0200, après mûre réflexion, Laurent a écrit:
"Licence IV" a écrit dans le message de news:
- Tu te fais un petit script qui lance shutdown -c toutes les secondes! Cela n'est pas fait pour réparer, mais pour te permettre de bosser sans avoir les reboot qui t'embètent... Intéressant mais le premier shutdown qui sera lancé sera bien exécuté lui,
non ?
Oui, mais moins d'une seconde après le shutdown -c annule le premier!
La bécane ne va-t-elle donc pas s'arrêter ?
Si c'est bien un shutdown -r qui est lancé, ton script l'arrètera et tu pourras continuer.
Après pour savoir ce qui se passe, regarde les programmes qui tournent et qui ne devraient pas: oui je vais essayer de zigzaguer entre les reboots pour tirer un max d'infos
Et à la méthode barbare, quand tu en vois un qui ne te plait pas, tu le kill! :-o
Avec quoi as tu scanné? antivir / linux version 2.1.1
Pour faire les choses bien, il faudrait (juste après l'installation initiale) que tu puisse t'assurer que tes fichiers (en particulier les binaires n'ont pas été modifiés! Méthode barbare: tu fais une copie de ton HD, et tu pourras comparer les fichiers présents par rapport à la sauvegarde!!! ;-) Tu peux aussi utiliser des programmes fait pour ca: aide - Advanced Intrusion Detection Environment
Pour moi, cette histoire ne sent pas bon du tout! Je te conseillerais de réinstaller une machine pour remplacer les services (mail) de cette machine; et tu gardes l'ancienne dans un coin histoire de l'étudier d'un peu plus près. Argh ! je me garde cette solution en dernier...
Vu comme ca, ton serveur à l'air d'être compromis, et si c'est le cas, tu DEVRA le réinstaller. :-(
-- Nicolas de Ferrières Mail: _______________________________________________________________ Si l'alcool ne me tue pas... Les femmes auront ma peau
Le Wed, 30 Jun 2004 11:42:05 +0200, après mûre réflexion,
Laurent <laurent@a_enlever.mmf-web.com> a écrit:
"Licence IV" <licence-IV@nospam.com.invalid> a écrit dans le message de
news:slrnce51ka.m0d.licence-IV@choam.efrei.fr...
- Tu te fais un petit script qui lance shutdown -c toutes les secondes!
Cela n'est pas fait pour réparer, mais pour te permettre de bosser sans
avoir les reboot qui t'embètent...
Intéressant mais le premier shutdown qui sera lancé sera bien exécuté lui,
non ?
Oui, mais moins d'une seconde après le shutdown -c annule le premier!
La bécane ne va-t-elle donc pas s'arrêter ?
Si c'est bien un shutdown -r qui est lancé, ton script l'arrètera et tu
pourras continuer.
Après pour savoir ce qui se passe, regarde les programmes qui tournent
et qui ne devraient pas:
oui je vais essayer de zigzaguer entre les reboots pour tirer un max d'infos
Et à la méthode barbare, quand tu en vois un qui ne te plait pas, tu le
kill! :-o
Avec quoi as tu scanné?
antivir / linux version 2.1.1
Pour faire les choses bien, il faudrait (juste après l'installation
initiale) que tu puisse t'assurer que tes fichiers (en particulier les
binaires n'ont pas été modifiés!
Méthode barbare: tu fais une copie de ton HD, et tu pourras comparer les
fichiers présents par rapport à la sauvegarde!!! ;-)
Tu peux aussi utiliser des programmes fait pour ca:
aide - Advanced Intrusion Detection Environment
Pour moi, cette histoire ne sent pas bon du tout! Je te conseillerais de
réinstaller une machine pour remplacer les services (mail) de cette
machine; et tu gardes l'ancienne dans un coin histoire de l'étudier d'un
peu plus près.
Argh ! je me garde cette solution en dernier...
Vu comme ca, ton serveur à l'air d'être compromis, et si c'est le cas,
tu DEVRA le réinstaller. :-(
--
Nicolas de Ferrières Mail: ferriere@efrei.fr
_______________________________________________________________
Si l'alcool ne me tue pas... Les femmes auront ma peau
Le Wed, 30 Jun 2004 11:42:05 +0200, après mûre réflexion, Laurent a écrit:
"Licence IV" a écrit dans le message de news:
- Tu te fais un petit script qui lance shutdown -c toutes les secondes! Cela n'est pas fait pour réparer, mais pour te permettre de bosser sans avoir les reboot qui t'embètent... Intéressant mais le premier shutdown qui sera lancé sera bien exécuté lui,
non ?
Oui, mais moins d'une seconde après le shutdown -c annule le premier!
La bécane ne va-t-elle donc pas s'arrêter ?
Si c'est bien un shutdown -r qui est lancé, ton script l'arrètera et tu pourras continuer.
Après pour savoir ce qui se passe, regarde les programmes qui tournent et qui ne devraient pas: oui je vais essayer de zigzaguer entre les reboots pour tirer un max d'infos
Et à la méthode barbare, quand tu en vois un qui ne te plait pas, tu le kill! :-o
Avec quoi as tu scanné? antivir / linux version 2.1.1
Pour faire les choses bien, il faudrait (juste après l'installation initiale) que tu puisse t'assurer que tes fichiers (en particulier les binaires n'ont pas été modifiés! Méthode barbare: tu fais une copie de ton HD, et tu pourras comparer les fichiers présents par rapport à la sauvegarde!!! ;-) Tu peux aussi utiliser des programmes fait pour ca: aide - Advanced Intrusion Detection Environment
Pour moi, cette histoire ne sent pas bon du tout! Je te conseillerais de réinstaller une machine pour remplacer les services (mail) de cette machine; et tu gardes l'ancienne dans un coin histoire de l'étudier d'un peu plus près. Argh ! je me garde cette solution en dernier...
Vu comme ca, ton serveur à l'air d'être compromis, et si c'est le cas, tu DEVRA le réinstaller. :-(
-- Nicolas de Ferrières Mail: _______________________________________________________________ Si l'alcool ne me tue pas... Les femmes auront ma peau
et quand je fais un grep -i watch * dans le répertoire /var/log/, en plus des lignes ci dessus il y a : ***** rpmpkgs:arpwatch-2.1a11-1.i386.rpm rpmpkgs:tmpwatch-2.8.1-1.i386.rpm *****
sinon le noyau est 2.4.26.
Je ne connaissais pas l'existence ni la fonction de watchdog jusque là... quelqu'un peut-il me donner un lien où je peux trouver pas mal de doc ?
et quand je fais un grep -i watch * dans le répertoire /var/log/, en plus
des lignes ci dessus il y a :
*****
rpmpkgs:arpwatch-2.1a11-1.i386.rpm
rpmpkgs:tmpwatch-2.8.1-1.i386.rpm
*****
sinon le noyau est 2.4.26.
Je ne connaissais pas l'existence ni la fonction de watchdog jusque là...
quelqu'un peut-il me donner un lien où je peux trouver pas mal de doc ?
et quand je fais un grep -i watch * dans le répertoire /var/log/, en plus des lignes ci dessus il y a : ***** rpmpkgs:arpwatch-2.1a11-1.i386.rpm rpmpkgs:tmpwatch-2.8.1-1.i386.rpm *****
sinon le noyau est 2.4.26.
Je ne connaissais pas l'existence ni la fonction de watchdog jusque là... quelqu'un peut-il me donner un lien où je peux trouver pas mal de doc ?
Merci
Laurent
Bon ben y a du nouveau. Nos hébergeurs ont changé la carte mère et pas de reboot depuis près de 4h. Je n'arrive pas à y croire ! Il m'ont dit qu'ils avaient vérifié 2 fois le matériel et que tout était ok... Vérifier le matériel, ca veut dire ouvrir le boitier et le refermer aussi sec ou quoi ??!!
une semaine de perdue et des tas de clients mécontents. Je ne leur tire pas mon chapeau sur ce coup là.
Seul point positif, depuis une semaine que je fouille un peu partout dans le serveur, j'apprivoise petit à petit le pingouin.
Encore un grand merci à tous ceux qui m'ont apporté leur aide! Laurent
Bon ben y a du nouveau.
Nos hébergeurs ont changé la carte mère et pas de reboot depuis près de 4h.
Je n'arrive pas à y croire ! Il m'ont dit qu'ils avaient vérifié 2 fois le
matériel et que tout était ok...
Vérifier le matériel, ca veut dire ouvrir le boitier et le refermer aussi
sec ou quoi ??!!
une semaine de perdue et des tas de clients mécontents. Je ne leur tire pas
mon chapeau sur ce coup là.
Seul point positif, depuis une semaine que je fouille un peu partout dans le
serveur, j'apprivoise petit à petit le pingouin.
Encore un grand merci à tous ceux qui m'ont apporté leur aide!
Laurent
Bon ben y a du nouveau. Nos hébergeurs ont changé la carte mère et pas de reboot depuis près de 4h. Je n'arrive pas à y croire ! Il m'ont dit qu'ils avaient vérifié 2 fois le matériel et que tout était ok... Vérifier le matériel, ca veut dire ouvrir le boitier et le refermer aussi sec ou quoi ??!!
une semaine de perdue et des tas de clients mécontents. Je ne leur tire pas mon chapeau sur ce coup là.
Seul point positif, depuis une semaine que je fouille un peu partout dans le serveur, j'apprivoise petit à petit le pingouin.
Encore un grand merci à tous ceux qui m'ont apporté leur aide! Laurent
Michel Tatoute
Bon ben y a du nouveau. Nos hébergeurs ont changé la carte mère et pas de reboot depuis près de 4h. Je n'arrive pas à y croire ! Il m'ont dit qu'ils avaient vérifié 2 fois le matériel et que tout était ok... Vérifier le matériel, ca veut dire ouvrir le boitier et le refermer aussi sec ou quoi ??!!
une semaine de perdue et des tas de clients mécontents. Je ne leur tire pas mon chapeau sur ce coup là.
Seul point positif, depuis une semaine que je fouille un peu partout dans le serveur, j'apprivoise petit à petit le pingouin.
Encore un grand merci à tous ceux qui m'ont apporté leur aide!
de rien. C'est avec plaisir.
Laurent Michel.
Bon ben y a du nouveau.
Nos hébergeurs ont changé la carte mère et pas de reboot depuis près
de 4h. Je n'arrive pas à y croire ! Il m'ont dit qu'ils avaient
vérifié 2 fois le matériel et que tout était ok...
Vérifier le matériel, ca veut dire ouvrir le boitier et le refermer
aussi sec ou quoi ??!!
une semaine de perdue et des tas de clients mécontents. Je ne leur tire
pas mon chapeau sur ce coup là.
Seul point positif, depuis une semaine que je fouille un peu partout
dans le serveur, j'apprivoise petit à petit le pingouin.
Encore un grand merci à tous ceux qui m'ont apporté leur aide!
Bon ben y a du nouveau. Nos hébergeurs ont changé la carte mère et pas de reboot depuis près de 4h. Je n'arrive pas à y croire ! Il m'ont dit qu'ils avaient vérifié 2 fois le matériel et que tout était ok... Vérifier le matériel, ca veut dire ouvrir le boitier et le refermer aussi sec ou quoi ??!!
une semaine de perdue et des tas de clients mécontents. Je ne leur tire pas mon chapeau sur ce coup là.
Seul point positif, depuis une semaine que je fouille un peu partout dans le serveur, j'apprivoise petit à petit le pingouin.
Encore un grand merci à tous ceux qui m'ont apporté leur aide!