OVH Cloud OVH Cloud

Plantage du systeme, explication ?

10 réponses
Avatar
Pascal
Salut tous,

Ma passerelle sous Debian Woody s'est plantée cette nuit près plusieurs
mois d'uptime sans souci. La pile IP vivait encore (réponse au ping,
connexion TCP) donc j'exclus un kernel panic mais aucun service réseau
ne répondait plus (telnet, SSH, DHCP...). J'ai rebranché un écran pour
voir s'il y avait moyen de reprendre la main mais la console était passé
en "veille" (écran noir) depuis des lustre et aucune action sur le
clavier n'a pu la réveiller. Sur le moment je n'ai pas pensé à tenter un
ctrl+alt+suppr pour redémarrer proprement, aussi j'ai fait un reset hard.

La machine redémarre, fsck trouve des erreurs sur l'unique partition de
système de fichiers en ext2 dont deux inodes "unattached", des liaisons
croisées, un inode contenant un tas de "illegal blocks" et d'autres
erreurs qui ne me disaient rien. C'était la première fois que j'avais à
réparer un système de fichier, j'ai accepté tout ce qu'il m'a proposé de
réparer sauf l'inode contenant trop d'invalid blocks qu'il me proposait
de supprimer. Le redémarrage suivant se déroule normalement.

Ne sachant pas trop quoi faire dans cette situation, j'ai procédé aux
investigations suivantes.

Examen des fichiers logs dans /var/log/ : auth.log, syslog messages
daemon.log kern.log. Rien de suspect jusqu'à 6h25, plus rien ensuite.
6h25, c'est l'heure à laquelle se déclenchent les tâches quotidiennes de
cron-daily : calendar exim find logrotate man-db modutils netkit-inetd
ntpdate-nerim standard sysklogd.

Examen du fichier dont l'inode avait des invalid blocks : c'est un des 4
fichiers sort* situés dans /var/tmp/ qui contiennent une arborescence de
fichiers.

Examen des deux fichiers récupérés dans lost+found : ils appartiennent à
l'utilisateur et man leur contenu ressemble à celui de
/var/cache/man/index.bt (qui date de la veille à 6h27).

J'ai vérifié les badblocks et l'état SMART du disque dur, RAS.

L'historique des connexions de mon FAI montre que la connexion s'est
interrompue à 6h28 avec la cause "NAS-Error".

J'aurais tendance à penser qu'une des tâches quotidiennes de cron-daily
est en cause, mais comment savoir ce qui s'est (mal) passé et si ça peut
se reproduire ? Quelqu'un a déjà vu ça ?

--
Pascal
Vous pouvez me tutoyer.
Piège à spam : boite-a-spam@plouf.fr.eu.org

10 réponses

Avatar
l'indien
On Sat, 12 Mar 2005 21:20:38 +0100, wrote:

Salut tous,

Ma passerelle sous Debian Woody s'est plantée cette nuit près plusieurs
mois d'uptime sans souci. La pile IP vivait encore (réponse au ping,
connexion TCP) donc j'exclus un kernel panic mais aucun service réseau
ne répondait plus (telnet, SSH, DHCP...). J'ai rebranché un écran pour
voir s'il y avait moyen de reprendre la main mais la console était passé
en "veille" (écran noir) depuis des lustre et aucune action sur le
clavier n'a pu la réveiller.


Vu les symptômes, c'est un kernel panic qui a planté un des
sous-systèmes du noyau. Vu que la pile IP marchait encore, ce n'est pas
la partie réseau.

Sur le moment je n'ai pas pensé à tenter un
ctrl+alt+suppr pour redémarrer proprement, aussi j'ai fait un reset hard.

La machine redémarre, fsck trouve des erreurs sur l'unique partition de
système de fichiers en ext2 dont deux inodes "unattached", des liaisons
croisées, un inode contenant un tas de "illegal blocks" et d'autres
erreurs qui ne me disaient rien. C'était la première fois que j'avais à
réparer un système de fichier, j'ai accepté tout ce qu'il m'a proposé de
réparer sauf l'inode contenant trop d'invalid blocks qu'il me proposait
de supprimer.


Au vu de celà, je dirais que le kernel panic a touché la partie de
gestion des bloc-device ou un driver lié.

[...]
J'aurais tendance à penser qu'une des tâches quotidiennes de cron-daily
est en cause, mais comment savoir ce qui s'est (mal) passé et si ça peut
se reproduire ? Quelqu'un a déjà vu ça ?


Le mieux est de mettre la console sur le port série et d'avoir le port
série connecté à un autre PC. Comme celà, en cas de nouveau crash, tu
auras les logs du noyau. Tu peux éventuellement aussi rediriger une
partie des logs système par le réseau, histoire d'être sur de ne rien
perdre en cas de crash.

Avatar
Pascal

Vu les symptômes, c'est un kernel panic qui a planté un des
sous-systèmes du noyau. Vu que la pile IP marchait encore, ce n'est pas
la partie réseau.


Je ne savais pas qu'un kernel panic n'était que partiel, je croyais que
tout le noyau arrêtait de tourner. Il va falloir que je me documente sur
le sujet.

La machine redémarre, fsck trouve des erreurs sur l'unique partition de
système de fichiers en ext2 dont deux inodes "unattached", des liaisons
croisées, un inode contenant un tas de "illegal blocks" et d'autres
erreurs qui ne me disaient rien. C'était la première fois que j'avais à
réparer un système de fichier, j'ai accepté tout ce qu'il m'a proposé de
réparer sauf l'inode contenant trop d'invalid blocks qu'il me proposait
de supprimer.


Au vu de celà, je dirais que le kernel panic a touché la partie de
gestion des bloc-device ou un driver lié.


Support IDE compilé en dur pour le contrôleur Intel PIIX3 du chipset
Triton VX avec DMA et block mode activés, rien d'expérimental il me semble.

[...]

J'aurais tendance à penser qu'une des tâches quotidiennes de cron-daily
est en cause, mais comment savoir ce qui s'est (mal) passé et si ça peut
se reproduire ? Quelqu'un a déjà vu ça ?


Le mieux est de mettre la console sur le port série et d'avoir le port
série connecté à un autre PC. Comme celà, en cas de nouveau crash, tu
auras les logs du noyau. Tu peux éventuellement aussi rediriger une
partie des logs système par le réseau, histoire d'être sur de ne rien
perdre en cas de crash.


Le problème est que cette machine est la seule qui reste allumée en
permanence (c'est chez moi). Mais merci du conseil. Que penses-tu
d'empêcher l'effacement de l'écran (sortie VGA texte) qui se déclenche
suite à l'inactivité de la console ? Ainsi, si le système affiche
quelque chose en cas de nouveau plantage, cela devrait rester visible.

PS: On dirait que la rumeur d'UDP de Free sur Tiscali est fondée, ton
article n'est pas visible sur le serveur de news de Free.

--
Pascal
Vous pouvez me tutoyer.
Piège à spam : (vide de chez vide)


Avatar
l'indien
On Sun, 13 Mar 2005 00:28:05 +0100, wrote:


Vu les symptômes, c'est un kernel panic qui a planté un des
sous-systèmes du noyau. Vu que la pile IP marchait encore, ce n'est pas
la partie réseau.


Je ne savais pas qu'un kernel panic n'était que partiel, je croyais que
tout le noyau arrêtait de tourner. Il va falloir que je me documente sur
le sujet.


C'était vrai sur les 2.2. Depuis le 2.4, le noyau peut résister à
certains panics: en gros, si un thread kernel plante, ça n'empêche pas
les autres de continuer leur boulot, sauf si les structures kernel ont
été "abimées" lors du crash auquel cas on a généralement des crashs
en cascade.


La machine redémarre, fsck trouve des erreurs sur l'unique partition de
système de fichiers en ext2 dont deux inodes "unattached", des liaisons
croisées, un inode contenant un tas de "illegal blocks" et d'autres
erreurs qui ne me disaient rien. C'était la première fois que j'avais à
réparer un système de fichier, j'ai accepté tout ce qu'il m'a proposé de
réparer sauf l'inode contenant trop d'invalid blocks qu'il me proposait
de supprimer.


Au vu de celà, je dirais que le kernel panic a touché la partie de
gestion des bloc-device ou un driver lié.


Support IDE compilé en dur pour le contrôleur Intel PIIX3 du chipset
Triton VX avec DMA et block mode activés, rien d'expérimental il me semble.


Rien que du standard, en effet. Tu utilise uniquement de l'ext2 ?

[...]

J'aurais tendance à penser qu'une des tâches quotidiennes de cron-daily
est en cause, mais comment savoir ce qui s'est (mal) passé et si ça peut
se reproduire ? Quelqu'un a déjà vu ça ?


Le mieux est de mettre la console sur le port série et d'avoir le port
série connecté à un autre PC. Comme celà, en cas de nouveau crash, tu
auras les logs du noyau. Tu peux éventuellement aussi rediriger une
partie des logs système par le réseau, histoire d'être sur de ne rien
perdre en cas de crash.


Le problème est que cette machine est la seule qui reste allumée en
permanence (c'est chez moi). Mais merci du conseil. Que penses-tu
d'empêcher l'effacement de l'écran (sortie VGA texte) qui se déclenche
suite à l'inactivité de la console ? Ainsi, si le système affiche
quelque chose en cas de nouveau plantage, cela devrait rester visible.


Je ne sais pas si tu peux empêcher facilement la console de s'inactiver.
C'est sans aucun doute possible, au pire en modifiant le noyau.

PS: On dirait que la rumeur d'UDP de Free sur Tiscali est fondée, ton
article n'est pas visible sur le serveur de news de Free.


?



Avatar
Pascal

Je ne savais pas qu'un kernel panic n'était que partiel, je croyais que
tout le noyau arrêtait de tourner. Il va falloir que je me documente sur
le sujet.


C'était vrai sur les 2.2. Depuis le 2.4, le noyau peut résister à
certains panics: en gros, si un thread kernel plante, ça n'empêche pas
les autres de continuer leur boulot, sauf si les structures kernel ont
été "abimées" lors du crash auquel cas on a généralement des crashs
en cascade.


Oups, j'ai oublié de préciser la version du noyau (2.4.18 pour Pentium,
sources Debian). Honte à moi qui suis le premier à râler contre les
descriptions de problèmes manquant de précision.

Au vu de celà, je dirais que le kernel panic a touché la partie de
gestion des bloc-device ou un driver lié.


Support IDE compilé en dur pour le contrôleur Intel PIIX3 du chipset
Triton VX avec DMA et block mode activés, rien d'expérimental il me semble.


Rien que du standard, en effet. Tu utilise uniquement de l'ext2 ?


Oui. Cette vénérable machine à base de Pentium MMX fait essentiellement
office de passerelle internet pour une liaison ADSL, pas serveur de
fichiers, de base de données ou web, et le disque dur ne fait que 2 Go.
J'ai jugé qu'il n'y avait pas besoin de système de fichier sophistiqué
pour ça, d'où une seule partition racine en ext2.

Je ne sais pas si tu peux empêcher facilement la console de s'inactiver.
C'est sans aucun doute possible, au pire en modifiant le noyau.


Je n'ai pas encore cherché mais je serait étonné qu'il n'y ait pas une
option à passer au démarrage du noyau ou dans un fichier de
configuration pour régler ça.

PS: On dirait que la rumeur d'UDP de Free sur Tiscali est fondée, ton
article n'est pas visible sur le serveur de news de Free.


?


UDP = Usenet Death Penalty. Un allumé bien connu de fuad (tu peux aller
voir dans ce forum, on en parle) émet des annulations sauvages contre
certains contributeurs depuis le serveur de news de Tiscali et ce
dernier ne réagit pas. Par conséquent Free a décidé de refuser tous les
articles (y compris les articles de contrôle d'annulation) émis depuis
ce serveur dans le but de faire réagir Tiscali. C'est ce qu'on appelle
une UDP passive.

--
Pascal
Vous pouvez me tutoyer.
Piège à spam :



Avatar
Marc

Je ne sais pas si tu peux empêcher facilement la console de
s'inactiver.


C'est sans aucun doute possible, au pire en modifiant le noyau.



Je n'ai pas encore cherché mais je serait étonné qu'il n'y ait pas une
option à passer au démarrage du noyau ou dans un fichier de
configuration pour régler ça.

Bonjour,


pour éviter le blank screen, ajouter (ou modifer) dans un des scripts de
démarrage (rc.M sur une Slack) :

# No screen blanks
/bin/setterm -blank 0

C'est actif sur ma passrelle internet, et pratique.

Marc.

--
L'I2C sous Windows
http://perso.club-internet.fr/mbouget/index.html

ATTENTION : enlevez les X pour répondre (remove all X to reply)


Avatar
l'indien
On Sun, 13 Mar 2005 14:46:28 +0100, wrote:


Je ne savais pas qu'un kernel panic n'était que partiel, je croyais que
tout le noyau arrêtait de tourner. Il va falloir que je me documente sur
le sujet.


C'était vrai sur les 2.2. Depuis le 2.4, le noyau peut résister à
certains panics: en gros, si un thread kernel plante, ça n'empêche pas
les autres de continuer leur boulot, sauf si les structures kernel ont
été "abimées" lors du crash auquel cas on a généralement des crashs
en cascade.


Oups, j'ai oublié de préciser la version du noyau (2.4.18 pour Pentium,
sources Debian). Honte à moi qui suis le premier à râler contre les
descriptions de problèmes manquant de précision.


En y repenssant, il m'est arrivé de crasher ma passerelle, avec des
symptômes du même style, à cause d'une micro-coupure de courant.
Mon PC principal n'a pas bougé, mais ma passerelle s'est figée...

[...]

PS: On dirait que la rumeur d'UDP de Free sur Tiscali est fondée, ton
article n'est pas visible sur le serveur de news de Free.


?


UDP = Usenet Death Penalty. Un allumé bien connu de fuad (tu peux aller
voir dans ce forum, on en parle) émet des annulations sauvages contre
certains contributeurs depuis le serveur de news de Tiscali et ce
dernier ne réagit pas. Par conséquent Free a décidé de refuser tous
les articles (y compris les articles de contrôle d'annulation) émis
depuis ce serveur dans le but de faire réagir Tiscali. C'est ce qu'on
appelle une UDP passive.


D'accord. Mais je ne suis pas chez tiscali...
Et mon provider passe par le réseau de neuf-telecom, à priori...



Avatar
Pascal

En y repenssant, il m'est arrivé de crasher ma passerelle, avec des
symptômes du même style, à cause d'une micro-coupure de courant.
Mon PC principal n'a pas bougé, mais ma passerelle s'est figée...


La dernière fois qu'il y a eu une micro-coupure de courant chez moi, la
passerelle est la seule machine qui a tenu. ;-) Le modem et l'autre PC
qui était allumé ont rebooté et le switch s'est planté.

Merci de toutes tes infos en tout cas. J'en profite pour remercier aussi
Marc de son tuyau pour empêcher l'effacement de l'écran de la console.

Un allumé bien connu de fuad émet des annulations sauvages contre
certains contributeurs depuis le serveur de news de Tiscali et ce
dernier ne réagit pas. Par conséquent Free a décidé de refuser tous
les articles (y compris les articles de contrôle d'annulation) émis
depuis ce serveur dans le but de faire réagir Tiscali.


D'accord. Mais je ne suis pas chez tiscali...
Et mon provider passe par le réseau de neuf-telecom, à priori...


Pourtant je lis ceci dans tes en-têtes :

Path: biggoron.nerim.net!nerim.net!news.tiscali.fr!not-for-mail
X-Trace: news.tiscali.fr 1110738224 9702 62.210.158.41 (13 Mar 2005
18:23:44 GMT)
X-Complaints-To:

Ce qui montre que tes articles sont injectés dans le réseau Usenet via
le serveur de news de Tiscali. Allez, petite enquête : :)

$ host news.magic.fr
news.magic.fr is an alias for nntp.magic.fr.
nntp.magic.fr has address 62.210.158.46
nntp.magic.fr has address 62.210.158.41
nntp.magic.fr has address 62.210.158.45

$ host 62.210.158.46
46.158.210.62.in-addr.arpa domain name pointer teheran.magic.fr.
$ host 62.210.158.41
41.158.210.62.in-addr.arpa domain name pointer moscou.magic.fr.
$ host 62.210.158.45
45.158.210.62.in-addr.arpa domain name pointer quito.magic.fr.

On retrouve l'une de ces trois machines dans le champ NNTP-Posting-Host
de tes articles. J'en conclus que ce sont des relais vers le serveur de
news de Tiscali. Et tu es bien filtré par Free, hélas.

--
Pascal
Vous pouvez me tutoyer.
Piège à spam :


Avatar
Kevin Denis
On 2005-03-12, wrote:

Je ne savais pas qu'un kernel panic n'était que partiel, je croyais que
tout le noyau arrêtait de tourner. Il va falloir que je me documente sur
le sujet.

Il existe des firewall machine eteinte, il me semble.

En gros, tu desactives tout ce qui est APM ACPi de ton noyau, puis tu
fait un halt
Le noyau s'arrete, mais continue de repondre au ping, filtrer etc..
dur pour un attaquant de corrompre la machine

(mmmh, google google) un lien ici par exemple: (firewall linux halted)
http://www.samag.com/documents/s24/sam0201d/0201d.htm

--
Kevin

Avatar
TiChou
Dans le message <news:d1224u$6v6$,
** tapota sur f.c.o.l.configuration :

Un allumé bien connu de fuad émet des annulations sauvages contre
certains contributeurs depuis le serveur de news de Tiscali et ce
dernier ne réagit pas. Par conséquent Free a décidé de refuser tous
les articles (y compris les articles de contrôle d'annulation) émis
depuis ce serveur dans le but de faire réagir Tiscali.


D'accord. Mais je ne suis pas chez tiscali...
Et mon provider passe par le réseau de neuf-telecom, à priori...


Pourtant je lis ceci dans tes en-têtes :

Path: biggoron.nerim.net!nerim.net!news.tiscali.fr!not-for-mail
X-Trace: news.tiscali.fr 1110738224 9702 62.210.158.41 (13 Mar 2005
18:23:44 GMT)
X-Complaints-To:

Ce qui montre que tes articles sont injectés dans le réseau Usenet via le
serveur de news de Tiscali. Allez, petite enquête : :)

$ host news.magic.fr
news.magic.fr is an alias for nntp.magic.fr.
nntp.magic.fr has address 62.210.158.46
nntp.magic.fr has address 62.210.158.41
nntp.magic.fr has address 62.210.158.45


$ dig +short ppp-181.net-555.magic.fr
62.210.255.181

$ whois -T ROUTE 62.210.158.46

route: 62.210.0.0/16
descr: Tiscali France (formerly C&W/ISDNET)
origin: AS12876
mnt-by: MNT-TISCALIFR
changed: 20040824
source: RIPE

Magic = réseau Tiscali.

--
TiChou



Avatar
l'indien
On Wed, 16 Mar 2005 13:18:35 +0100, TiChou wrote:

Dans le message <news:d1224u$6v6$,
** tapota sur f.c.o.l.configuration :

Un allumé bien connu de fuad émet des annulations sauvages contre
certains contributeurs depuis le serveur de news de Tiscali et ce
dernier ne réagit pas. Par conséquent Free a décidé de refuser tous
les articles (y compris les articles de contrôle d'annulation) émis
depuis ce serveur dans le but de faire réagir Tiscali.


D'accord. Mais je ne suis pas chez tiscali...
Et mon provider passe par le réseau de neuf-telecom, à priori...


Pourtant je lis ceci dans tes en-têtes :

Path: biggoron.nerim.net!nerim.net!news.tiscali.fr!not-for-mail
X-Trace: news.tiscali.fr 1110738224 9702 62.210.158.41 (13 Mar 2005
18:23:44 GMT)
X-Complaints-To:

Ce qui montre que tes articles sont injectés dans le réseau Usenet via le
serveur de news de Tiscali. Allez, petite enquête : :)

$ host news.magic.fr
news.magic.fr is an alias for nntp.magic.fr.
nntp.magic.fr has address 62.210.158.46
nntp.magic.fr has address 62.210.158.41
nntp.magic.fr has address 62.210.158.45


$ dig +short ppp-181.net-555.magic.fr
62.210.255.181

$ whois -T ROUTE 62.210.158.46

route: 62.210.0.0/16
descr: Tiscali France (formerly C&W/ISDNET)
origin: AS12876
mnt-by: MNT-TISCALIFR
changed: 20040824
source: RIPE

Magic = réseau Tiscali.


Pourtant, le dégroupage se fait chez Neuf et le backbone à la Defense
est chez Colt !
Ca a l'air joyeux, chez Magic ;-)
Le seul avantage est le débit garanti, ce qui n'est pas vraiment le cas
de Tiscali, j'en ai fait les frais. Eux aussi sont des rigolos, donc...