Twitter iPhone pliant OnePlus 11 PS5 Disney+ Orange Livebox Windows 11

planté de bâton : comment repartir ?

9 réponses
Avatar
Sebastien Kirche
Bonjour,

ce matin je voulais imprimer rapidement plusieurs photos, j'ai sorti gimp 2
en voulant imprimer une page avec les diverses photos réduites dessus.

Lorsque j'ai créé une nouvelle image au format 21x29.7x600dpi (les 4 photos
que je voulais monter étaient déjà chargée) gimp m'a averti qu'elle allait
faire plus de 260 Mo et j'ai passé outre. Après tout la machine a 512 Mo de
RAM...

Ensuite c'est parti en vrille :
- j'ai pu voir que gimp et kswapd se battaient pour savoir qui aurait la
plus grosse charge
- X a cessé de rafraîchir les fenêtres de gimp
- et ça a fini par un superbe crash de X (driver proprio NVidia pour une
4200 Ti) => grosse bouillie de pixels colorés à l'écran
- Plus de clavier : impossible de switcher sur une autre console pour
dépatouiller, je remarque que même les diodes verrouillage majuscule et
pavé numérique ne réagissent plus.

D'un autre côté, le reste de la machine n'est pas planté : je vois des accès
réseau à intervales réguliers (sans doute fetchmail et bittorrent) et ssh
réagit toujours.

Est-ce qu'il y a encore moyen de sauver le patient ?

Voici la liste de ce qui tourne encore (c'est large mais j'ai laissé la vue
en tableu):
,----[ ssh obelix ps auxf ]
| USER PID %CPU %MEM VSZ RSS TTY STAT START TIME COMMAND
| root 1 0.0 0.0 76 52 ? S Oct13 0:20 init [3]
| root 2 0.0 0.0 0 0 ? S Oct13 0:07 [keventd]
| root 3 0.0 0.0 0 0 ? SN Oct13 0:02 [ksoftirqd_CPU0]
| root 4 0.0 0.0 0 0 ? SN Oct13 0:00 [ksoftirqd_CPU1]
| root 5 0.0 0.0 0 0 ? S Oct13 7:45 [kswapd]
| root 6 0.0 0.0 0 0 ? S Oct13 0:00 [bdflush]
| root 7 0.0 0.0 0 0 ? S Oct13 2:40 [kupdated]
| root 118 0.0 0.0 0 0 ? S Oct13 0:02 [kreiserfsd]
| root 201 0.0 0.0 0 0 ? S Oct13 0:00 [khubd]
| root 227 0.0 0.0 0 0 ? S Oct13 0:16 [xfsbufd]
| root 228 0.0 0.0 0 0 ? S Oct13 0:10 [xfslogd/0]
| root 229 0.0 0.0 0 0 ? S Oct13 0:00 [xfslogd/1]
| root 230 0.0 0.0 0 0 ? S Oct13 0:00 [xfsdatad/0]
| root 231 0.0 0.0 0 0 ? S Oct13 0:00 [xfsdatad/1]
| root 234 0.0 0.0 0 0 ? S Oct13 0:00 [knodemgrd_0]
| root 248 0.0 0.0 0 0 ? S Oct13 0:00 [kcopyd]
| root 263 0.0 0.0 0 0 ? S< Oct13 0:00 [mdrecoveryd]
| root 298 0.0 0.0 0 0 ? S Oct13 0:05 [xfssyncd]
| root 299 0.0 0.0 0 0 ? S Oct13 0:05 [kjournald]
| root 366 0.0 0.0 1512 264 ? Ss Oct13 0:00 dhcpcd-bin -h obelix.seki.fr eth0
| root 538 0.0 0.0 1540 352 ? Ss Oct13 0:24 /sbin/syslogd
| root 541 0.0 0.2 2136 1092 ? Ss Oct13 0:00 /sbin/klogd
| root 553 0.0 0.0 1496 296 ? S Oct13 0:00 /usr/sbin/usbmgr
| clamav 650 0.0 0.0 2584 404 ? Ss Oct13 0:00 /usr/bin/freshclam -d --quiet -p /var/run/clamav/freshclam.pid
| nobody 669 0.0 0.0 3456 412 ? Ss Oct13 0:05 /usr/lib/GNUstep/System/Tools/gdomap -I /var/run/gdomap.pid -p
| root 782 0.0 0.0 2972 512 ? Ss Oct13 0:18 /usr/lib/postfix/master
| postfix 788 0.0 0.1 3132 828 ? S Oct13 0:07 \_ qmgr -l -t fifo -u -c
| postfix 15477 0.0 0.2 2984 1160 ? S 10:13 0:00 \_ pickup -l -t fifo -u -c
| root 803 0.0 0.1 3396 632 ? Ss Oct13 0:03 /usr/sbin/sshd
| root 17179 0.6 0.3 6148 1616 ? Ss 11:42 0:00 \_ sshd: seki [priv]
| seki 17182 0.0 0.3 6156 1848 ? S 11:42 0:00 \_ sshd: seki@notty
| seki 17183 0.0 0.1 2476 844 ? Rs 11:42 0:00 \_ ps auxf
| root 853 0.0 0.9 6932 5052 ? Ss Oct13 0:00 /usr/bin/X11/xfs -daemon
| root 874 0.0 0.3 6436 1572 ? Ss Oct13 0:16 /usr/lib/GNUstep/System/Tools/gnustep_sndd
| root 878 0.0 0.0 1764 344 ? Ss Oct13 0:00 /sbin/rpc.statd
| arpwatch 893 0.0 0.1 3464 640 ? S Oct13 0:03 /usr/sbin/arpwatch -u arpwatch -N -p
| nobody 902 0.0 0.1 4108 920 ? Ss Oct13 0:13 proftpd: (accepting connections)
| daemon 911 0.0 0.0 1676 328 ? Ss Oct13 0:00 /usr/sbin/atd
| root 914 0.0 0.0 1752 408 ? Ss Oct13 0:04 /usr/sbin/cron
| root 945 0.0 0.0 1792 320 ? Ss Oct13 1:34 /usr/sbin/gpm -m /dev/input/mice -t ps2 -Rms3
| seki 952 0.0 0.2 6292 1076 tty1 Ss+ Oct13 0:00 -zsh
| seki 953 0.0 0.2 5256 1276 tty2 Ss+ Oct13 0:00 -zsh
| root 955 0.0 0.0 1492 244 tty4 Ss+ Oct13 0:00 /sbin/getty 38400 tty4
| root 956 0.0 0.0 1492 244 tty5 Ss+ Oct13 0:00 /sbin/getty 38400 tty5
| root 957 0.0 0.0 1492 244 tty6 Ss+ Oct13 0:00 /sbin/getty 38400 tty6
| root 1211 0.0 0.1 9108 556 ? Ss Oct13 0:00 /usr/sbin/nvtvd --quiet
| fetchma 29379 0.0 0.1 5424 1008 ? Ss Oct14 0:39 /usr/bin/fetchmail -f /etc/fetchmailrc --syslog -i /var/mail/.fetchmail-UIDL-cache
| root 17590 0.0 0.3 12292 1992 ? SN Oct28 12:06 /usr/bin/artsd -F 10 -S 4096 -s 60 -m artsmessage -l 3 -f
| root 5221 0.0 0.0 0 0 ? S Oct31 0:00 [loop0]
| root 1860 0.0 0.0 0 0 ? S Nov01 0:02 [usb-storage-0]
| root 1861 0.0 0.0 0 0 ? S Nov01 0:00 [scsi_eh_1]
| root 9979 0.0 0.0 0 0 ? S Nov04 0:00 [usb-storage-1]
| root 9980 0.0 0.0 0 0 ? S Nov04 0:00 [scsi_eh_2]
| root 27924 0.0 0.1 6532 960 ? Ss Nov04 0:10 /usr/sbin/cupsd
| root 389 0.0 0.1 5064 848 tty3 Ss+ Nov15 0:00 -zsh
| root 394 0.0 0.3 5244 1808 ? Ss Nov15 0:19 SCREEN
| root 972 0.0 0.1 4804 756 pts/6 Ss Nov15 0:00 \_ /usr/bin/zsh
| root 9868 0.1 0.9 9764 4848 pts/6 S+ 00:05 0:44 | \_ /usr/bin/python /usr/bin/btdownloadcurses --max_upload_rate 3 /home/seki/panther/Mac OS X Panther Final Install Disc 2.dmg.torrent
| root 9869 0.0 0.9 9764 4848 pts/6 S+ 00:05 0:00 | \_ /usr/bin/python /usr/bin/btdownloadcurses --max_upload_rate 3 /home/seki/panther/Mac OS X Panther Final Install Disc 2.dmg.torrent
| root 980 0.0 0.1 4804 748 pts/7 Ss Nov15 0:00 \_ /usr/bin/zsh
| root 9864 0.0 0.8 9480 4464 pts/7 S+ 00:04 0:37 \_ /usr/bin/python /usr/bin/btdownloadcurses --max_upload_rate 3 /home/seki/panther/Mac OS X Panther Final Install Disc 3.dmg.torrent
| root 9865 0.0 0.8 9480 4464 pts/7 S+ 00:04 0:00 \_ /usr/bin/python /usr/bin/btdownloadcurses --max_upload_rate 3 /home/seki/panther/Mac OS X Panther Final Install Disc 3.dmg.torrent
`----
(oui oui je récupère OSX pour mon émulateur, enfin j'essaie)

Plus de traces de X (lancement habituel par startx, runlevel 3 sans *DM) qui
a dû être lancé depuis le zsh en tty1 ou tty2.

Ce n'est pas le premier plantage de X (4.3.0) sur ma machine (Debian 2.4.26
SMP) mais les autres fois je m'en suis sorti en switchant sur une console
secondaire et en killant les restes du plantage. Là je coince et vu que tout
n'est pas mort, j'aimerais bien essayer de dépanner avant de bêtement
relancer.

Une idée ?

Sébastien Kirche

9 réponses

Avatar
Nicolas George
Sebastien Kirche wrote in message :
Est-ce qu'il y a encore moyen de sauver le patient ?


Tu peux essayer de lancer X depuis la connexion ssh. Ça peut aussi bien
empirer les choses que les améliorer.

Avatar
Sebastien Kirche
Le 20 nov 2004, Nicolas George a dit :

Sebastien Kirche wrote in message :
Est-ce qu'il y a encore moyen de sauver le patient ?


Tu peux essayer de lancer X depuis la connexion ssh. Ça peut aussi bien
empirer les choses que les améliorer.


Exact.

Je n'ai pas encore toujours le «réflexe» log, mais j'ai fini par consulter
/var/log/kern.log et les dernières lignes étaient celles-ci :
,----[ tail /var/log/kern.log ]
| Nov 15 21:54:20 obelix kernel: printer.c: usblp0: removed
| Nov 15 22:52:28 obelix kernel: hub.c: new USB device 00:1d.0-2, assigned address 12
| Nov 15 22:52:28 obelix kernel: printer.c: usblp0: USB Bidirectional printer dev 12 if 0 alt 1 proto 2 vid 0x03F0 pid 0x1204
| Nov 20 08:53:57 obelix kernel: __alloc_pages: 0-order allocation failed (gfp=0x1d2/0)
| Nov 20 08:54:32 obelix kernel: __alloc_pages: 0-order allocation failed (gfp=0x1d2/0)
| Nov 20 08:54:32 obelix kernel: VM: killing process WindowMaker
| Nov 20 08:54:32 obelix kernel: __alloc_pages: 0-order allocation failed (gfp=0x1d2/0)
| Nov 20 08:54:32 obelix kernel: VM: killing process wmnet
| Nov 20 08:54:35 obelix kernel: __alloc_pages: 0-order allocation failed (gfp=0x1d2/0)
| Nov 20 08:54:35 obelix kernel: VM: killing process XFree86
`----

Ça m'a confirmé que c'était X qui était en cause, mais que c'était le noyau
qui avait tué X après un dérapage d'allocation mémoire (ma fameuse image de
260 Mo dans Gimp sans doute).

Du coup un premier lancement manuel de X s'est soldé par une erreur, mais ça
a décoincé le clavier.

J'ai rebasculé sur une autre console et c'est reparti :D

Comme ça je ne gâche pas mon uptime de 37 jours ;)
Merci.

Sébastien Kirche


Avatar
Sebastien Kirche
Le 20 nov 2004, Nicolas George a dit :

Sebastien Kirche wrote in message :
Est-ce qu'il y a encore moyen de sauver le patient ?


Tu peux essayer de lancer X depuis la connexion ssh. Ça peut aussi bien
empirer les choses que les améliorer.


Exact.

Je n'ai pas encore toujours le «réflexe» log, mais j'ai fini par consulter
/var/log/kern.log et les dernières lignes étaient celles-ci :
,----[ tail /var/log/kern.log ]
| Nov 15 21:54:20 obelix kernel: printer.c: usblp0: removed
| Nov 15 22:52:28 obelix kernel: hub.c: new USB device 00:1d.0-2, assigned address 12
| Nov 15 22:52:28 obelix kernel: printer.c: usblp0: USB Bidirectional printer dev 12 if 0 alt 1 proto 2 vid 0x03F0 pid 0x1204
| Nov 20 08:53:57 obelix kernel: __alloc_pages: 0-order allocation failed (gfp=0x1d2/0)
| Nov 20 08:54:32 obelix kernel: __alloc_pages: 0-order allocation failed (gfp=0x1d2/0)
| Nov 20 08:54:32 obelix kernel: VM: killing process WindowMaker
| Nov 20 08:54:32 obelix kernel: __alloc_pages: 0-order allocation failed (gfp=0x1d2/0)
| Nov 20 08:54:32 obelix kernel: VM: killing process wmnet
| Nov 20 08:54:35 obelix kernel: __alloc_pages: 0-order allocation failed (gfp=0x1d2/0)
| Nov 20 08:54:35 obelix kernel: VM: killing process XFree86
`----

Ça m'a confirmé que c'était X qui était en cause, mais que c'était le noyau
qui avait tué X après un dérapage d'allocation mémoire (ma fameuse image de
260 Mo dans Gimp sans doute).

Du coup un premier lancement manuel de X s'est soldé par une erreur, mais ça
a décoincé le clavier.

J'ai rebasculé sur une autre console et c'est reparti :D

Comme ça je ne gâche pas mon uptime de 37 jours ;)
Merci.

Sébastien Kirche


Avatar
Sebastien Kirche
Le 20 nov 2004, Nicolas George a dit :

Sebastien Kirche wrote in message :
Est-ce qu'il y a encore moyen de sauver le patient ?


Tu peux essayer de lancer X depuis la connexion ssh. Ça peut aussi bien
empirer les choses que les améliorer.


Exact.

Je n'ai pas encore toujours le «réflexe» log, mais j'ai fini par consulter
/var/log/kern.log et les dernières lignes étaient celles-ci :
,----[ tail /var/log/kern.log ]
| Nov 15 21:54:20 obelix kernel: printer.c: usblp0: removed
| Nov 15 22:52:28 obelix kernel: hub.c: new USB device 00:1d.0-2, assigned address 12
| Nov 15 22:52:28 obelix kernel: printer.c: usblp0: USB Bidirectional printer dev 12 if 0 alt 1 proto 2 vid 0x03F0 pid 0x1204
| Nov 20 08:53:57 obelix kernel: __alloc_pages: 0-order allocation failed (gfp=0x1d2/0)
| Nov 20 08:54:32 obelix kernel: __alloc_pages: 0-order allocation failed (gfp=0x1d2/0)
| Nov 20 08:54:32 obelix kernel: VM: killing process WindowMaker
| Nov 20 08:54:32 obelix kernel: __alloc_pages: 0-order allocation failed (gfp=0x1d2/0)
| Nov 20 08:54:32 obelix kernel: VM: killing process wmnet
| Nov 20 08:54:35 obelix kernel: __alloc_pages: 0-order allocation failed (gfp=0x1d2/0)
| Nov 20 08:54:35 obelix kernel: VM: killing process XFree86
`----

Ça m'a confirmé que c'était X qui était en cause, mais que c'était le noyau
qui avait tué X après un dérapage d'allocation mémoire (ma fameuse image de
260 Mo dans Gimp sans doute).

Du coup un premier lancement manuel de X s'est soldé par une erreur, mais ça
a décoincé le clavier.

J'ai rebasculé sur une autre console et c'est reparti :D

Comme ça je ne gâche pas mon uptime de 37 jours ;)
Merci.

Sébastien Kirche


Avatar
Bruno Mathieu
Sebastien Kirche a écrit:

-  Plus de  clavier :  impossible  de switcher  sur une  autre console 
pour dépatouiller, je  remarque que même  les diodes verrouillage 
majuscule et pavé numérique ne réagissent plus.

Bonjour,


Tu peux essayer kbd_mode à distance. Je me souviens de plantage de serveurs
X sur sun : le clavier ne se remettait pas en mode ascii alors on ne
pouvait plus rien faire sur une console. Rebooter n'était pas trop
envisageable car plusieurs personnes faisaient tourner des process assez
longs sur la machine. Kbd_mode à distance pour remettre le clavier en état
a fonctionné.

Autrement il m'est arrivé que les diodes ne répondent plus mais que les
touches magiques fonctionnent encore. Dans ce cas un alt-impr_écran-k me
rend parfois la console (si noyau compilé avec support de Magic Keys).

--
Bruno

Avatar
Sebastien Kirche
Le 20 nov 2004, Bruno Mathieu s'est exprimé ainsi :

Bonjour,


Salut :)

Tu peux essayer kbd_mode à distance. Je me souviens de plantage de
serveurs X sur sun : le clavier ne se remettait pas en mode ascii alors on
ne pouvait plus rien faire sur une console. Rebooter n'était pas trop
envisageable car plusieurs personnes faisaient tourner des process assez
longs sur la machine. Kbd_mode à distance pour remettre le clavier en état
a fonctionné.


Je ne connaissais pas du tout kbd_mode. Je me note ça dans un coin.
J'ai fini par décoincer en relançant X 2 fois.

Autrement il m'est arrivé que les diodes ne répondent plus mais que les
touches magiques fonctionnent encore. Dans ce cas un alt-impr_écran-k me
rend parfois la console (si noyau compilé avec support de Magic Keys).


Je viens de vérifier dans la conf du noyau je crois que les touches magiques
n'y sont pas...

Sébastien Kirche

Avatar
Bruno Mathieu
Sebastien Kirche a écrit:

Je ne connaissais pas du tout kbd_mode. Je me note ça dans un coin.
J'ai fini par décoincer en relançant X 2 fois.


J'en avais moi-même presque oublié l'existence depuis que je suis sous
linux :-) C'était une proposition comme ça pour ton uptime, parce que je
reboote sauvagement après usage des touches magiques maintenant que je suis
seul sur ma machine.

Autrement il m'est arrivé que les diodes ne répondent plus mais que les
touches magiques fonctionnent encore. Dans ce cas un alt-impr_écran-k me
rend parfois la console (si noyau compilé avec support de Magic Keys).


Je viens de vérifier dans la conf du noyau je crois que les touches
magiques n'y sont pas...


Le symbole en question est :
CONFIG_MAGIC_SYSRQ et il faut un 1 dans un fichier de /proc
http://eric.gerbier.free.fr/admin-tips.html#magic ou
kernel.sysrq = 1 dans /etc/sysctl.conf

Si tu as un 2.6.x (x=9 c'est ok, avant je ne sais pas), CONFIG_IKCONFIG
permet d'avoir un /proc/config.gz qui indique la config du noyau qui
tourne, et c'est rudement pratique AMHA : cf
http://lists.debian.org/debian-kernel/2004/10/msg00023.html pour d'autres
avis !

--
Bruno


Avatar
Sebastien Kirche
Le 20 nov 2004, Bruno Mathieu a dit :

Je viens de vérifier dans la conf du noyau je crois que les touches
magiques n'y sont pas...


Le symbole en question est :
CONFIG_MAGIC_SYSRQ et il faut un 1 dans un fichier de /proc
http://eric.gerbier.free.fr/admin-tips.html#magic ou
kernel.sysrq = 1 dans /etc/sysctl.conf


Ok ça me confirme : rien dans /boot/config-2.4.26-1-686-smp et pas de sysrq
dans /proc/sys/kernel

Dommage.

Sébastien Kirche


Avatar
Sebastien Kirche
Le 25 Nov 2004, ludovic Thebault a dit :

Le bug est réapparu.
Le clavier ne répond pas => donc gèle complet du système, reboot
obligatoire.


Es-tu sûr que la machine est complètement plantée ?

Le fait qu'il n'y ait plus d'affichage et que le clavier ne réponde plus
(switch vers une autre console ou blocage majuscules inopérant) n'est pas
une preuve.

Je m'explique : le week-end dernier j'ai gimp qui m'a fait crasher X suite à
(semble-t-il) un souci d'allocation mémoire. Résultat : un tas de pixels à
l'écran et clavier bloqué.

Cependant j'ai pu constater qu'il était toujours possible de se connecter
sur la machine par ssh, ce qui m'a permis de déplanter le bousin *sans*
rebooter.

Également, Bruno Mathieu m'a indiqué une solution pour débloquer le clavier
si tu peux encore te logguer dessus à distance : kbd_mode (voir ci-dessous).

Tu peux aussi tenter un reboot propre dans ce cas.


Le 20 Nov 2004, Bruno Mathieu a formulé :

Sebastien Kirche a écrit:

-  Plus de  clavier :  impossible  de switcher  sur une  autre console 
pour dépatouiller, je  remarque que même  les diodes verrouillage 
majuscule et pavé numérique ne réagissent plus.

Bonjour,


Tu peux essayer kbd_mode à distance. Je me souviens de plantage de
serveurs X sur sun : le clavier ne se remettait pas en mode ascii alors on
ne pouvait plus rien faire sur une console. Rebooter n'était pas trop
envisageable car plusieurs personnes faisaient tourner des process assez
longs sur la machine. Kbd_mode à distance pour remettre le clavier en état
a fonctionné.

Autrement il m'est arrivé que les diodes ne répondent plus mais que les
touches magiques fonctionnent encore. Dans ce cas un alt-impr_écran-k me
rend parfois la console (si noyau compilé avec support de Magic Keys).



Sébastien Kirche