Le 29/11/16 à 17:59, Charles Plessy a écrit :
CP> - Impossible de se connecter en SSH.
Est-ce que auth.log dit qqchose lors de ces tentatives échouées ?
CP> - Les connections en cours fonctionnent jusqu'à ce qu'on les tue ou les bloque.
Et depuis une connexion qui marche, tu vois rien d'intéressant lorsque
CP> - Impossible de prendre les droits administrateur avec sudo (bloque la session).
Le message d'erreur permet pas de t'aiguiller ?
CP> - Des processus « CRON -f » qui s'accumulent.
Bizarre normalement y'en a qu'un(-f c'est foreground), tu sais qui les lance ?
(je pense à un truc de monitoring qui vérifierait que cron est lancé, croit qu'il ne l'est pas
et le relance).
Tu sais si ces cron lancent d'autres choses (un ps avec f permet de le voir) ?
CP> - Journal systemd qui ne contient plus rien à partir du début du bloquage.
CP> - systlog et messages pas plus intéressants: un « -- MARK -- » toutes les 20
CP> minutes et c'est tout.
Ça dit déjà que le système peut écrire (le reste pourrait laisser penser à un disque passé en
read only).
Pas vraiment d'idée, le kern.log ne dit rien ?
Si tu n'as pas de kern.log, tu peux installer rsyslog pour qu'il le crée à partir des messages
de systemd, mais si t'as rien avec journalctl y'aura probablement rien de plus.
CP> Je ne sais pas si les processus CRON sont une cause ou un symptome...
Si tu les kill (depuis une console ouverte avant qui continue de répondre), ça donne qqchose ?
Le 29/11/16 à 17:59, Charles Plessy <plessy@debian.org> a écrit :
CP> - Impossible de se connecter en SSH.
Est-ce que auth.log dit qqchose lors de ces tentatives échouées ?
CP> - Les connections en cours fonctionnent jusqu'à ce qu'on les tue ou les bloque.
Et depuis une connexion qui marche, tu vois rien d'intéressant lorsque
CP> - Impossible de prendre les droits administrateur avec sudo (bloque la session).
Le message d'erreur permet pas de t'aiguiller ?
CP> - Des processus « CRON -f » qui s'accumulent.
Bizarre normalement y'en a qu'un(-f c'est foreground), tu sais qui les lance ?
(je pense à un truc de monitoring qui vérifierait que cron est lancé, croit qu'il ne l'est pas
et le relance).
Tu sais si ces cron lancent d'autres choses (un ps avec f permet de le voir) ?
CP> - Journal systemd qui ne contient plus rien à partir du début du bloquage.
CP> - systlog et messages pas plus intéressants: un « -- MARK -- » toutes les 20
CP> minutes et c'est tout.
Ça dit déjà que le système peut écrire (le reste pourrait laisser penser à un disque passé en
read only).
Pas vraiment d'idée, le kern.log ne dit rien ?
Si tu n'as pas de kern.log, tu peux installer rsyslog pour qu'il le crée à partir des messages
de systemd, mais si t'as rien avec journalctl y'aura probablement rien de plus.
CP> Je ne sais pas si les processus CRON sont une cause ou un symptome...
Si tu les kill (depuis une console ouverte avant qui continue de répondre), ça donne qqchose ?
Le 29/11/16 à 17:59, Charles Plessy a écrit :
CP> - Impossible de se connecter en SSH.
Est-ce que auth.log dit qqchose lors de ces tentatives échouées ?
CP> - Les connections en cours fonctionnent jusqu'à ce qu'on les tue ou les bloque.
Et depuis une connexion qui marche, tu vois rien d'intéressant lorsque
CP> - Impossible de prendre les droits administrateur avec sudo (bloque la session).
Le message d'erreur permet pas de t'aiguiller ?
CP> - Des processus « CRON -f » qui s'accumulent.
Bizarre normalement y'en a qu'un(-f c'est foreground), tu sais qui les lance ?
(je pense à un truc de monitoring qui vérifierait que cron est lancé, croit qu'il ne l'est pas
et le relance).
Tu sais si ces cron lancent d'autres choses (un ps avec f permet de le voir) ?
CP> - Journal systemd qui ne contient plus rien à partir du début du bloquage.
CP> - systlog et messages pas plus intéressants: un « -- MARK -- » toutes les 20
CP> minutes et c'est tout.
Ça dit déjà que le système peut écrire (le reste pourrait laisser penser à un disque passé en
read only).
Pas vraiment d'idée, le kern.log ne dit rien ?
Si tu n'as pas de kern.log, tu peux installer rsyslog pour qu'il le crée à partir des messages
de systemd, mais si t'as rien avec journalctl y'aura probablement rien de plus.
CP> Je ne sais pas si les processus CRON sont une cause ou un symptome...
Si tu les kill (depuis une console ouverte avant qui continue de répondre), ça donne qqchose ?
Le 29/11/16 à 17:59, Charles Plessy a écrit :
>
> Je ne sais pas si les processus CRON sont une cause ou un symptome...
Le Wed, Nov 30, 2016 at 11:09:57AM +0100, Daniel Caillibaud a écrit :Si tu les kill (depuis une console ouverte avant qui continue de répondre), ça donne qqchose ?
Alors là, je suis vraiment désolé, mais j'ai gardé une fenêtre root pendant
quelques jours, et je l'ai ensuite fermée en pensant que le problème était
réglé suite à une fausse piste (Nagios qui harcelait le port SSH).
Je donnerai des nouvelles au prochain plantage, mais d'ici là, s'il y a de
nouvelles idées...
> Le 29/11/16 à 17:59, Charles Plessy <plessy@debian.org> a écrit :
> >
> > Je ne sais pas si les processus CRON sont une cause ou un symptome...
Le Wed, Nov 30, 2016 at 11:09:57AM +0100, Daniel Caillibaud a écrit :
>
> Si tu les kill (depuis une console ouverte avant qui continue de répondre), ça donne qqchose ?
Alors là, je suis vraiment désolé, mais j'ai gardé une fenêtre root pendant
quelques jours, et je l'ai ensuite fermée en pensant que le problème était
réglé suite à une fausse piste (Nagios qui harcelait le port SSH).
Je donnerai des nouvelles au prochain plantage, mais d'ici là, s'il y a de
nouvelles idées...
Le 29/11/16 à 17:59, Charles Plessy a écrit :
>
> Je ne sais pas si les processus CRON sont une cause ou un symptome...
Le Wed, Nov 30, 2016 at 11:09:57AM +0100, Daniel Caillibaud a écrit :Si tu les kill (depuis une console ouverte avant qui continue de répondre), ça donne qqchose ?
Alors là, je suis vraiment désolé, mais j'ai gardé une fenêtre root pendant
quelques jours, et je l'ai ensuite fermée en pensant que le problème était
réglé suite à une fausse piste (Nagios qui harcelait le port SSH).
Je donnerai des nouvelles au prochain plantage, mais d'ici là, s'il y a de
nouvelles idées...
Il me semble que chaque fois que le problème arrive, la machine a été stressée
sur ses ressources. Se pourrait-il qu'un processus essentiel pour établir des
nouvelles connections soit interrompu ou bloqué dans ces moment, et pas ou mal
relancé ensuite ?
:~# ps aux | grep root
root 1 0.0 0.0 28544 3360 ? Ss Feb07 0:30 /sbin/init
root 140 0.0 0.0 32968 2448 ? Ss Feb07 0:05 /lib/systemd/systemd-journald
root 466 0.0 0.0 37096 168 ? Ss Feb07 0:04 /sbin/rpcbind -w
root 501 0.0 0.0 27568 0 ? Ss Feb07 0:00 /usr/sbin/rpc.idmapd
root 536 0.0 0.0 55184 1520 ? Ss Feb07 0:00 /usr/sbin/sshd -D
root 550 0.2 0.0 65352 13036 ? Ssl Feb07 109:52 /usr/bin/gitlab-ci-multi-runner run --working-directory /var/lib/gitlab-runner --config /etc/gitlab-runner/config.toml --service gitlab-runner --syslog --user gitlab-runner
root 614 0.0 0.0 28324 524 ? Ss Feb07 0:05 /lib/systemd/systemd-logind
root 700 0.0 0.0 95260 352 ? Ss Feb07 1:07 /usr/sbin/apache2 -k start
root 807 0.0 0.0 12652 1100 ? S Feb07 0:04 /usr/sbin/syslogd --no-forward
root 1165 0.0 0.0 12664 12 tty1 Ss+ Feb07 0:00 /sbin/agetty --noclear tty1 linux
root 1173 0.0 0.0 12664 12 ? Ss Feb07 0:00 /sbin/agetty --noclear tty2 linux
root 1181 0.0 0.0 12664 12 tty3 Ss+ Feb07 0:00 /sbin/agetty --noclear tty3 linux
root 1189 0.0 0.0 12664 12 tty4 Ss+ Feb07 0:00 /sbin/agetty --noclear tty4 linux
root 1197 0.0 0.0 16880 12 ? Ss Feb07 0:00 /sbin/agetty --noclear --keep-baud pts/3 115200 38400 9600 vt102
root 1205 0.0 0.0 16880 12 ? Ss Feb07 0:00 /sbin/agetty --noclear --keep-baud pts/2 115200 38400 9600 vt102
root 1213 0.0 0.0 16880 12 pts/1 Ss+ Feb07 0:00 /sbin/agetty --noclear --keep-baud pts/1 115200 38400 9600 vt102
root 1221 0.0 0.0 16880 12 ? Ss Feb07 0:00 /sbin/agetty --noclear --keep-baud pts/0 115200 38400 9600 vt102
root 1229 0.0 0.0 16880 12 console Ss+ Feb07 0:00 /sbin/agetty --noclear --keep-baud console 115200 38400 9600 vt102
root 1566 0.0 0.0 95352 12 ? Ss Feb07 0:00 sshd: plessy [priv]
root 1607 0.0 0.0 60108 12 pts/4 S Feb07 0:00 sudo su -
root 1608 0.0 0.0 61592 0 pts/4 S Feb07 0:00 su -
root 1609 0.0 0.0 26248 4296 pts/4 S Feb07 0:00 -su
root 1646 0.0 0.0 60108 12 pts/6 S Feb07 0:00 sudo su -
root 1647 0.0 0.0 61592 0 pts/6 S Feb07 0:00 su -
root 1648 0.0 0.0 26212 0 pts/6 S+ Feb07 0:00 -su
root 2754 0.0 0.0 21716 2504 pts/4 R+ 11:23 0:00 ps aux
root 2755 0.0 0.0 15344 1784 pts/4 S+ 11:23 0:00 grep root
root 16949 0.0 0.0 95352 12 ? Ss Mar06 0:00 sshd: plessy [priv]
root 18795 0.0 0.0 95352 12 ? Ss Mar06 0:00 sshd: plessy [priv]
root 22802 0.0 0.0 95352 20 ? Ss Mar07 0:00 sshd: plessy [priv]
Il me semble que chaque fois que le problème arrive, la machine a été stressée
sur ses ressources. Se pourrait-il qu'un processus essentiel pour établir des
nouvelles connections soit interrompu ou bloqué dans ces moment, et pas ou mal
relancé ensuite ?
root@dgt-med:~# ps aux | grep root
root 1 0.0 0.0 28544 3360 ? Ss Feb07 0:30 /sbin/init
root 140 0.0 0.0 32968 2448 ? Ss Feb07 0:05 /lib/systemd/systemd-journald
root 466 0.0 0.0 37096 168 ? Ss Feb07 0:04 /sbin/rpcbind -w
root 501 0.0 0.0 27568 0 ? Ss Feb07 0:00 /usr/sbin/rpc.idmapd
root 536 0.0 0.0 55184 1520 ? Ss Feb07 0:00 /usr/sbin/sshd -D
root 550 0.2 0.0 65352 13036 ? Ssl Feb07 109:52 /usr/bin/gitlab-ci-multi-runner run --working-directory /var/lib/gitlab-runner --config /etc/gitlab-runner/config.toml --service gitlab-runner --syslog --user gitlab-runner
root 614 0.0 0.0 28324 524 ? Ss Feb07 0:05 /lib/systemd/systemd-logind
root 700 0.0 0.0 95260 352 ? Ss Feb07 1:07 /usr/sbin/apache2 -k start
root 807 0.0 0.0 12652 1100 ? S Feb07 0:04 /usr/sbin/syslogd --no-forward
root 1165 0.0 0.0 12664 12 tty1 Ss+ Feb07 0:00 /sbin/agetty --noclear tty1 linux
root 1173 0.0 0.0 12664 12 ? Ss Feb07 0:00 /sbin/agetty --noclear tty2 linux
root 1181 0.0 0.0 12664 12 tty3 Ss+ Feb07 0:00 /sbin/agetty --noclear tty3 linux
root 1189 0.0 0.0 12664 12 tty4 Ss+ Feb07 0:00 /sbin/agetty --noclear tty4 linux
root 1197 0.0 0.0 16880 12 ? Ss Feb07 0:00 /sbin/agetty --noclear --keep-baud pts/3 115200 38400 9600 vt102
root 1205 0.0 0.0 16880 12 ? Ss Feb07 0:00 /sbin/agetty --noclear --keep-baud pts/2 115200 38400 9600 vt102
root 1213 0.0 0.0 16880 12 pts/1 Ss+ Feb07 0:00 /sbin/agetty --noclear --keep-baud pts/1 115200 38400 9600 vt102
root 1221 0.0 0.0 16880 12 ? Ss Feb07 0:00 /sbin/agetty --noclear --keep-baud pts/0 115200 38400 9600 vt102
root 1229 0.0 0.0 16880 12 console Ss+ Feb07 0:00 /sbin/agetty --noclear --keep-baud console 115200 38400 9600 vt102
root 1566 0.0 0.0 95352 12 ? Ss Feb07 0:00 sshd: plessy [priv]
root 1607 0.0 0.0 60108 12 pts/4 S Feb07 0:00 sudo su -
root 1608 0.0 0.0 61592 0 pts/4 S Feb07 0:00 su -
root 1609 0.0 0.0 26248 4296 pts/4 S Feb07 0:00 -su
root 1646 0.0 0.0 60108 12 pts/6 S Feb07 0:00 sudo su -
root 1647 0.0 0.0 61592 0 pts/6 S Feb07 0:00 su -
root 1648 0.0 0.0 26212 0 pts/6 S+ Feb07 0:00 -su
root 2754 0.0 0.0 21716 2504 pts/4 R+ 11:23 0:00 ps aux
root 2755 0.0 0.0 15344 1784 pts/4 S+ 11:23 0:00 grep root
root 16949 0.0 0.0 95352 12 ? Ss Mar06 0:00 sshd: plessy [priv]
root 18795 0.0 0.0 95352 12 ? Ss Mar06 0:00 sshd: plessy [priv]
root 22802 0.0 0.0 95352 20 ? Ss Mar07 0:00 sshd: plessy [priv]
Il me semble que chaque fois que le problème arrive, la machine a été stressée
sur ses ressources. Se pourrait-il qu'un processus essentiel pour établir des
nouvelles connections soit interrompu ou bloqué dans ces moment, et pas ou mal
relancé ensuite ?
:~# ps aux | grep root
root 1 0.0 0.0 28544 3360 ? Ss Feb07 0:30 /sbin/init
root 140 0.0 0.0 32968 2448 ? Ss Feb07 0:05 /lib/systemd/systemd-journald
root 466 0.0 0.0 37096 168 ? Ss Feb07 0:04 /sbin/rpcbind -w
root 501 0.0 0.0 27568 0 ? Ss Feb07 0:00 /usr/sbin/rpc.idmapd
root 536 0.0 0.0 55184 1520 ? Ss Feb07 0:00 /usr/sbin/sshd -D
root 550 0.2 0.0 65352 13036 ? Ssl Feb07 109:52 /usr/bin/gitlab-ci-multi-runner run --working-directory /var/lib/gitlab-runner --config /etc/gitlab-runner/config.toml --service gitlab-runner --syslog --user gitlab-runner
root 614 0.0 0.0 28324 524 ? Ss Feb07 0:05 /lib/systemd/systemd-logind
root 700 0.0 0.0 95260 352 ? Ss Feb07 1:07 /usr/sbin/apache2 -k start
root 807 0.0 0.0 12652 1100 ? S Feb07 0:04 /usr/sbin/syslogd --no-forward
root 1165 0.0 0.0 12664 12 tty1 Ss+ Feb07 0:00 /sbin/agetty --noclear tty1 linux
root 1173 0.0 0.0 12664 12 ? Ss Feb07 0:00 /sbin/agetty --noclear tty2 linux
root 1181 0.0 0.0 12664 12 tty3 Ss+ Feb07 0:00 /sbin/agetty --noclear tty3 linux
root 1189 0.0 0.0 12664 12 tty4 Ss+ Feb07 0:00 /sbin/agetty --noclear tty4 linux
root 1197 0.0 0.0 16880 12 ? Ss Feb07 0:00 /sbin/agetty --noclear --keep-baud pts/3 115200 38400 9600 vt102
root 1205 0.0 0.0 16880 12 ? Ss Feb07 0:00 /sbin/agetty --noclear --keep-baud pts/2 115200 38400 9600 vt102
root 1213 0.0 0.0 16880 12 pts/1 Ss+ Feb07 0:00 /sbin/agetty --noclear --keep-baud pts/1 115200 38400 9600 vt102
root 1221 0.0 0.0 16880 12 ? Ss Feb07 0:00 /sbin/agetty --noclear --keep-baud pts/0 115200 38400 9600 vt102
root 1229 0.0 0.0 16880 12 console Ss+ Feb07 0:00 /sbin/agetty --noclear --keep-baud console 115200 38400 9600 vt102
root 1566 0.0 0.0 95352 12 ? Ss Feb07 0:00 sshd: plessy [priv]
root 1607 0.0 0.0 60108 12 pts/4 S Feb07 0:00 sudo su -
root 1608 0.0 0.0 61592 0 pts/4 S Feb07 0:00 su -
root 1609 0.0 0.0 26248 4296 pts/4 S Feb07 0:00 -su
root 1646 0.0 0.0 60108 12 pts/6 S Feb07 0:00 sudo su -
root 1647 0.0 0.0 61592 0 pts/6 S Feb07 0:00 su -
root 1648 0.0 0.0 26212 0 pts/6 S+ Feb07 0:00 -su
root 2754 0.0 0.0 21716 2504 pts/4 R+ 11:23 0:00 ps aux
root 2755 0.0 0.0 15344 1784 pts/4 S+ 11:23 0:00 grep root
root 16949 0.0 0.0 95352 12 ? Ss Mar06 0:00 sshd: plessy [priv]
root 18795 0.0 0.0 95352 12 ? Ss Mar06 0:00 sshd: plessy [priv]
root 22802 0.0 0.0 95352 20 ? Ss Mar07 0:00 sshd: plessy [priv]
Le 16/03/17 à 11:27, Charles Plessy a écrit :
CP>
CP> (Résumé des épisodes précédents, j'ai une machine virtuelle sur laquelle il
CP> devient parfois impossible de se connecter. Les sessions existantes continuent
CP> de fonctionner normalement, une grande partie des logs ne sont plus écrits, et
CP> un processus cron par heure se lance, semble bloquer et s'accumule.)
Tu peux installer atop sur le host, et le régler avec une mesure par minute (10 par défaut,
dans /etc/default/atop mettre `INTERVAL``), ça devrait te permettre après coup de voir à
chaque minute l'état complet du host, par ex atop -r /var/log/atop/atop_YYYYmmdd -b hh:mm
pour avoir un top amélioré de cette minute là, que tu peux trier par conso RAM, CPU, disque,
etc. (man atop pour les détails).
Le 16/03/17 à 11:27, Charles Plessy <plessy@debian.org> a écrit :
CP>
CP> (Résumé des épisodes précédents, j'ai une machine virtuelle sur laquelle il
CP> devient parfois impossible de se connecter. Les sessions existantes continuent
CP> de fonctionner normalement, une grande partie des logs ne sont plus écrits, et
CP> un processus cron par heure se lance, semble bloquer et s'accumule.)
Tu peux installer atop sur le host, et le régler avec une mesure par minute (10 par défaut,
dans /etc/default/atop mettre `INTERVAL``), ça devrait te permettre après coup de voir à
chaque minute l'état complet du host, par ex atop -r /var/log/atop/atop_YYYYmmdd -b hh:mm
pour avoir un top amélioré de cette minute là, que tu peux trier par conso RAM, CPU, disque,
etc. (man atop pour les détails).
Le 16/03/17 à 11:27, Charles Plessy a écrit :
CP>
CP> (Résumé des épisodes précédents, j'ai une machine virtuelle sur laquelle il
CP> devient parfois impossible de se connecter. Les sessions existantes continuent
CP> de fonctionner normalement, une grande partie des logs ne sont plus écrits, et
CP> un processus cron par heure se lance, semble bloquer et s'accumule.)
Tu peux installer atop sur le host, et le régler avec une mesure par minute (10 par défaut,
dans /etc/default/atop mettre `INTERVAL``), ça devrait te permettre après coup de voir à
chaque minute l'état complet du host, par ex atop -r /var/log/atop/atop_YYYYmmdd -b hh:mm
pour avoir un top amélioré de cette minute là, que tu peux trier par conso RAM, CPU, disque,
etc. (man atop pour les détails).