lenteur disque (Í confirmer)

Marc SCHAEFER

06/12/2021 à 08:20

Christophe PEREZ wrote:

Pour vous donner une idée de cette lenteur, habituellement, son backup
complet de 6Go par bacula se fait en 10mn environ. LÍ , il en est Í
220Mo en 50mn.

Il fait son backup sur:

mes autres PC avec SSD :
/dev/sdb:
Timing cached reads: 2694 MB in 2.00 seconds = 1347.05 MB/sec
Timing buffered disk reads: 390 MB in 3.00 seconds = 129.87 MB/sec

6 Go/10 min == 10 MByte/s.
Et il y a encore la compression bacula je suppose qui réduit ce
débit, si le CPU est suffisamment rapide.

UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x0032 095
095 050 Old_age Always - 0/4950862 5
Retired_Block_Count 0x0033 100 100 003 Pre-fail Always
- 0 9 Power_On_Hours_and_Msec 0x0032 093 093 000

Argh, la mise en page !
Votre client news a-t-il un mode "brut", sinon le plus simple serait
d'utiliser: https://justpaste.it/ ou autre.

Est-ce un disque qui lÍ¢che ?

En général, chez moi, les disques qui tournent voient leur dégradation
en débit (un simple hdparm comme vous avez fait le montre) avant d'avoir
des blocs en erreur.
Mais le SMART, souvent, ne voit rien (l'indice parfois c'est le
Raw_Read_Error_Rate, dans mon expérience).
Sur les disques SSD, j'ai trop peu d'expérience. Il faut savoir que par
parano j'ai jusqu'ici systématiquement laissé un bon bout non
partitionné en me disant que cela leur servirait de blocs de
remplacement, mais j'en ai très peu en vraie production.

pehache

06/12/2021 à 15:21

Le 06/12/2021 Í 00:12, Christophe PEREZ a écrit :

Bonjour,
J'ai un (vieux) PC sous Gentoo que je trouve subitement (vraiment du
jour au lendemain) très très lent.
Pour vous donner une idée de cette lenteur, habituellement, son backup
complet de 6Go par bacula se fait en 10mn environ. LÍ , il en est Í
220Mo en 50mn.
J'ai d'abord pensé que ça pouvait être un pb réseau (il est en filaire)
mais les tests que j'ai pu faire (simple wget gros fichier) n'ont rien
rélévé d'anormal.
Ce n'est pas de la charge proc (un Quad core), un top ne donne rien du
tout.
Il ne s'est rien passé au niveau logiciel Í ce moment entre temps, pas
la moindre mise Í jour.
J'en déduis que ça pourrait être un problème de lenteur disque.
Ce PC contient le premier SSD que j'ai eu, et je n'ai aucune expérience
de SSD défaillant.
Le résultat d'un hdparm -tT /dev/sdb me laisse sceptique par rapport Í
mes autres PC avec SSD :
/dev/sdb:
Timing cached reads: 2694 MB in 2.00 seconds = 1347.05 MB/sec
Timing buffered disk reads: 390 MB in 3.00 seconds = 129.87 MB/sec

Pas clair : c'est un hdparm que tu fais tourner sur le SSD qui te pose
problème, oÍ¹ sur un autre ?

Un smartctl -l ne m'indique rien de particulier Í mes yeux.

La mise en page est illisible...

Marc SCHAEFER

06/12/2021 à 18:09

Christophe PEREZ wrote:

6 Go/10 min == 10 MByte/s.

Et ?
Ça, c'est en temps normal.

C'est déjÍ assez lent, en fait. Cela peut être lié au temps de
compression ou de collecte de tas de petits fichiers.

Mais je n'arrive pas Í être convaincu que le problème soit le disque,
c'est pour ça que j'ai fourni ces infos.
Elles semblent "normales" ou pas ?

Oui, avec débit indiqué par hdparm on s'attendra Í un backup en 2
minutes.
Maintenant, l'écriture est peut-être bien plus lente que la lecture
testée par hdparm.

Même une connexion ssh prend du temps Í s'effectuer.

Ceci fait penser Í un problème de DNS.

C'est juste *comme si* le PC/proc avait un mode ultra-économique qui le
ralentissait.

des processus étranges qui tournent (top, htop) et prennent du CPU ou de
la mémoire?
Le système swappe-t-il activement (colonnes si et so de `vmstat 5`,
laisser tourner quelques minutes, la 1ère ligne est une moyenne).

Et puis, un processeur ne peut pas devenir plus lent non ? Il sera
défectueux, provoquera des erreurs, mais il ne peut pas tourner 100
fois moins vite il me semble.

C'est effectivement peu probable.

Marc SCHAEFER

06/12/2021 à 18:10

Christophe PEREZ wrote:

6 Go/10 min == 10 MByte/s.

Et ?
Ça, c'est en temps normal.

C'est déjÍ assez lent, en fait. Cela peut être lié au temps de
compression ou de collecte de tas de petits fichiers.

Mais je n'arrive pas Í être convaincu que le problème soit le disque,
c'est pour ça que j'ai fourni ces infos.
Elles semblent "normales" ou pas ?

Oui, avec débit indiqué par hdparm on s'attendra Í un backup en 2
minutes.
Maintenant, l'écriture est peut-être bien plus lente que la lecture
testée par hdparm.

Même une connexion ssh prend du temps Í s'effectuer.

Ceci fait penser Í un problème de DNS.

C'est juste *comme si* le PC/proc avait un mode ultra-économique qui le
ralentissait.

des processus étranges qui tournent (top, htop) et prennent du CPU ou de
la mémoire?
Le système swappe-t-il activement (colonnes si et so de `vmstat 5`,
laisser tourner quelques minutes, la 1ère ligne est une moyenne).

Et puis, un processeur ne peut pas devenir plus lent non ? Il sera
défectueux, provoquera des erreurs, mais il ne peut pas tourner 100
fois moins vite il me semble.

C'est effectivement peu probable.
Des erreurs dans `sudo dmesg | tail' ?

pehache

06/12/2021 à 18:51

Le 06/12/2021 Í 08:20, Marc SCHAEFER a écrit :

Christophe PEREZ wrote:
Pour vous donner une idée de cette lenteur, habituellement, son backup
complet de 6Go par bacula se fait en 10mn environ. LÍ , il en est Í
220Mo en 50mn.

Il fait son backup sur:
mes autres PC avec SSD :
/dev/sdb:
Timing cached reads: 2694 MB in 2.00 seconds = 1347.05 MB/sec
Timing buffered disk reads: 390 MB in 3.00 seconds = 129.87 MB/sec

6 Go/10 min == 10 MByte/s.
Et il y a encore la compression bacula je suppose qui réduit ce
débit, si le CPU est suffisamment rapide.
UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x0032 095
095 050 Old_age Always - 0/4950862 5
Retired_Block_Count 0x0033 100 100 003 Pre-fail Always
- 0 9 Power_On_Hours_and_Msec 0x0032 093 093 000

Argh, la mise en page !
Votre client news a-t-il un mode "brut", sinon le plus simple serait
d'utiliser: https://justpaste.it/ ou autre.
Est-ce un disque qui lÍ¢che ?

En général, chez moi, les disques qui tournent voient leur dégradation
en débit (un simple hdparm comme vous avez fait le montre) avant d'avoir
des blocs en erreur.
Mais le SMART, souvent, ne voit rien (l'indice parfois c'est le
Raw_Read_Error_Rate, dans mon expérience).

J'ai plutÍ´t constaté l'inverse : une lenteur anormale et un rapport
SMART qui revèle des problèmes.

Sur les disques SSD, j'ai trop peu d'expérience. Il faut savoir que par
parano j'ai jusqu'ici systématiquement laissé un bon bout non
partitionné en me disant que cela leur servirait de blocs de
remplacement,

Autant que je sache la réserve de blocs n'est pas sur le volume
accessible par l'OS, et même si tu ne partitionnes pas tout, les blocs
libres ne seront pas utilisés pour remplacer les blocs défectueux.

Marc SCHAEFER

06/12/2021 à 18:58

pehache wrote:

Sur les disques SSD, j'ai trop peu d'expérience. Il faut savoir que par
parano j'ai jusqu'ici systématiquement laissé un bon bout non
partitionné en me disant que cela leur servirait de blocs de
remplacement,

Autant que je sache la réserve de blocs n'est pas sur le volume
accessible par l'OS, et même si tu ne partitionnes pas tout, les blocs
libres ne seront pas utilisés pour remplacer les blocs défectueux.

Effectivement, le SSD n'a aucun moyen de savoir qu'ils ne sont pas
alloués. Par contre, il a moyen de voir qu'ils n'ont jamais été
utilisés.
Typiquement, le fait que la commande `trim' existe me faisait penser
qu'il pouvait avoir -- en plus d'un pré-effacement -- utilisation des
blocs non alloués comme blocs de réallocation.
Je me disais qu'il pouvait éventuellement noter quels blocs logiques
sont mappés oÍ¹, et mapper au fur et Í mesure. Mais c'est plus complexe
qu'une simple table de réallocation avec des blocs réservés pour.
Je cite Wikipedia: "Cette technique permet en outre d'augmenter la durée
de vie des SSD, par la mise en rotation des cellules utilisées Í chaque
écriture - Í la condition de laisser suffisamment d'espace libre sur le
support. En effet, plus l'espace de stockage disponible est restreint,
plus les écritures se feront fréquemment sur les mêmes cellules,
réduisant donc l'efficacité de cette technique. "

pehache

06/12/2021 à 19:09

Le 06/12/2021 Í 18:58, Marc SCHAEFER a écrit :

pehache wrote:
Sur les disques SSD, j'ai trop peu d'expérience. Il faut savoir que par
parano j'ai jusqu'ici systématiquement laissé un bon bout non
partitionné en me disant que cela leur servirait de blocs de
remplacement,

Autant que je sache la réserve de blocs n'est pas sur le volume
accessible par l'OS, et même si tu ne partitionnes pas tout, les blocs
libres ne seront pas utilisés pour remplacer les blocs défectueux.

Effectivement, le SSD n'a aucun moyen de savoir qu'ils ne sont pas
alloués. Par contre, il a moyen de voir qu'ils n'ont jamais été
utilisés.
Typiquement, le fait que la commande `trim' existe me faisait penser
qu'il pouvait avoir -- en plus d'un pré-effacement -- utilisation des
blocs non alloués comme blocs de réallocation.
Je me disais qu'il pouvait éventuellement noter quels blocs logiques
sont mappés oÍ¹, et mapper au fur et Í mesure. Mais c'est plus complexe
qu'une simple table de réallocation avec des blocs réservés pour.

Il pourrait faire ça, oui, mais il y aurait un "petit" souci si ensuite
tu voulais récupérer l'espace initialement non partionné. D'oÍ¹ le fait
que la réserve de blocs vient "en plus" de l'espace visible par l'OS.

Je cite Wikipedia: "Cette technique permet en outre d'augmenter la durée
de vie des SSD, par la mise en rotation des cellules utilisées Í chaque
écriture - Í la condition de laisser suffisamment d'espace libre sur le
support. En effet, plus l'espace de stockage disponible est restreint,
plus les écritures se feront fréquemment sur les mêmes cellules,
réduisant donc l'efficacité de cette technique. "

Oui, mais ça c'est dans le but de permettre au garbage collector de mieux
fonctionner (si tant est qu'il y ait besoin qu'il fonctionne mieux).

Christophe PEREZ

06/12/2021 à 21:12

Le Mon, 6 Dec 2021 17:10:00 -0000 (UTC),
Marc SCHAEFER a écrit :

Christophe PEREZ wrote:
6 Go/10 min == 10 MByte/s.

Et ?
Ça, c'est en temps normal.

C'est déjÍ assez lent, en fait. Cela peut être lié au temps de
compression ou de collecte de tas de petits fichiers.

Oui, voilÍ , c'est lié Í la lecture, et Í tout le processus de backup
qui n'est pas juste une copie de fichier, compression etc...
Je donnais la valeur juste pour que l'on soit bien conscient que je ne
parle pas d'un léger ralentissement mais de quelque chose tout Í fait
hors du commun.

Oui, avec débit indiqué par hdparm on s'attendra Í un backup en 2
minutes.

On reste quand même dans le même ordre de grandeur, on ne passe pas de
quelques minutes Í 13 heures.

Maintenant, l'écriture est peut-être bien plus lente que la lecture
testée par hdparm.

L'écriture ne se faisant pas sur la même machine surtout. Et c'est lÍ
qu'intervient le réseau. Je pensais l'avoir sous-entendu, mais je me
rends compte que ce n'était pas forcément suffisamment explicite.

Même une connexion ssh prend du temps Í s'effectuer.

Ceci fait penser Í un problème de DNS.

A priori non, j'ai mon serveur DNS, rien n'a changé, le poste est connu
Les résultats sont identiques avec l'adresse IP.

des processus étranges qui tournent (top, htop) et prennent du CPU ou
de la mémoire?

Non, rien de rien justement.

Le système swappe-t-il activement (colonnes si et so de `vmstat 5`,
laisser tourner quelques minutes, la 1ère ligne est une moyenne).

Non, ce n'est pas ça non plus. Tous ces tests sont faits après reboot,
sans rien qui tourne hormis les services "normaux" et sddm.
Aucun outil ne montre le moindre élément suspect.
vmstat 5, si et so = 0.

Des erreurs dans `sudo dmesg | tail' ?

Rien ne me saute aux yeux.
Je me demande si en fait tout n'est pas qu'une question de problème de
réseau, que j'aurais Í tort écarté trop tÍ´t je ne sais plus pour quelle
raison. Vu qu'en plus le /home est en NFS, le réseau y est crucial.
une simple connexion ssh peut prendre 3 ou 13sec... (mais 10sec est le
cas général)
$ time ssh 192.168.5.7 echo
real 0m10,577s
user 0m0,000s
sys 0m0,009s
$ time ssh 192.168.5.7 echo
real 0m3,756s
user 0m0,005s
sys 0m0,005s
$ time ssh 192.168.5.7 echo
real 0m13,965s
user 0m0,009s
sys 0m0,000s
Pourtant, ethtool ne me semble pas montrer de défaut
$ ethtool eth0
Settings for eth0:
Supported ports: [ MII ]
Supported link modes: 10baseT/Half 10baseT/Full
100baseT/Half 100baseT/Full
1000baseT/Full
Supported pause frame use: No
Supports auto-negotiation: Yes
Supported FEC modes: Not reported
Advertised link modes: 10baseT/Half 10baseT/Full
100baseT/Half 100baseT/Full
1000baseT/Full
Advertised pause frame use: No
Advertised auto-negotiation: Yes
Advertised FEC modes: Not reported
Speed: 1000Mb/s
Duplex: Full
Auto-negotiation: on
Port: MII
PHYAD: 1
Transceiver: internal
netlink error: Operation not permitted
Link detected: yes
Mais quand je teste avec :
$ time scp ~/tmp/test poste_sans_probleme:/dev/null
test 100%
500MB 112.0MB/s 00:04
real 0m4,648s
user 0m0,864s
sys 0m0,745s
$ time scp ~/tmp/test 192.168.5.7:/dev/null
test 100%
500MB 24.9MB/s 00:20
real 0m27,867s
user 0m0,952s
sys 0m0,341s
Défaillance de la carte réseau intégrée ?
Je n'ai jamais rencontré ce type de défaut. Pour moi ça a toujours été
on/off. Ça fonctionne, ou c'est HS.
CÍ¢ble réseau ? Possible, il est long, et pas simple Í remplacer pour un
test. J'imagine qu'il n'y a pas d'autre moyen que de le remplacer pour
tester.
Je déplacerai la machine dès que je pourrai, pour tester sur un autre
cÍ¢ble.
En fait, je n'ai jamais eu de défaut de ce genre, encore moins lié Í un
cÍ¢ble... Je pensais que c'était lÍ aussi assez binaire, soit c'est bon,
soit c'est HS, même si je comprends bien que ça puisse être dégradé.

Le Mon, 6 Dec 2021 17:10:00 -0000 (UTC),
Marc SCHAEFER <schaefer@alphanet.ch> a écrit :

Christophe PEREZ <chris@novazur.fr> wrote:
>> 6 Go/10 min == 10 MByte/s.
>
> Et ?
> Ça, c'est en temps normal.

C'est déjÍ assez lent, en fait. Cela peut être lié au temps de
compression ou de collecte de tas de petits fichiers.

Oui, voilÍ , c'est lié Í la lecture, et Í tout le processus de backup
qui n'est pas juste une copie de fichier, compression etc...
Je donnais la valeur juste pour que l'on soit bien conscient que je ne
parle pas d'un léger ralentissement mais de quelque chose tout Í fait
hors du commun.

Oui, avec débit indiqué par hdparm on s'attendra Í un backup en 2
minutes.

On reste quand même dans le même ordre de grandeur, on ne passe pas de
quelques minutes Í 13 heures.

Maintenant, l'écriture est peut-être bien plus lente que la lecture
testée par hdparm.

L'écriture ne se faisant pas sur la même machine surtout. Et c'est lÍ
qu'intervient le réseau. Je pensais l'avoir sous-entendu, mais je me
rends compte que ce n'était pas forcément suffisamment explicite.

> Même une connexion ssh prend du temps Í s'effectuer.

Ceci fait penser Í un problème de DNS.

A priori non, j'ai mon serveur DNS, rien n'a changé, le poste est connu
Les résultats sont identiques avec l'adresse IP.

des processus étranges qui tournent (top, htop) et prennent du CPU ou
de la mémoire?

Non, rien de rien justement.

Le système swappe-t-il activement (colonnes si et so de `vmstat 5`,
laisser tourner quelques minutes, la 1ère ligne est une moyenne).

Non, ce n'est pas ça non plus. Tous ces tests sont faits après reboot,
sans rien qui tourne hormis les services "normaux" et sddm.
Aucun outil ne montre le moindre élément suspect.

vmstat 5, si et so = 0.

Des erreurs dans `sudo dmesg | tail' ?

Rien ne me saute aux yeux.

Je me demande si en fait tout n'est pas qu'une question de problème de
réseau, que j'aurais Í tort écarté trop tÍ´t je ne sais plus pour quelle
raison. Vu qu'en plus le /home est en NFS, le réseau y est crucial.

une simple connexion ssh peut prendre 3 ou 13sec... (mais 10sec est le
cas général)
$ time ssh 192.168.5.7 echo

real 0m10,577s
user 0m0,000s
sys 0m0,009s

$ time ssh 192.168.5.7 echo

real 0m3,756s
user 0m0,005s
sys 0m0,005s

$ time ssh 192.168.5.7 echo

real 0m13,965s
user 0m0,009s
sys 0m0,000s

Pourtant, ethtool ne me semble pas montrer de défaut
$ ethtool eth0
Settings for eth0:
Supported ports: [ MII ]
Supported link modes: 10baseT/Half 10baseT/Full
100baseT/Half 100baseT/Full
1000baseT/Full
Supported pause frame use: No
Supports auto-negotiation: Yes
Supported FEC modes: Not reported
Advertised link modes: 10baseT/Half 10baseT/Full
100baseT/Half 100baseT/Full
1000baseT/Full
Advertised pause frame use: No
Advertised auto-negotiation: Yes
Advertised FEC modes: Not reported
Speed: 1000Mb/s
Duplex: Full
Auto-negotiation: on
Port: MII
PHYAD: 1
Transceiver: internal
netlink error: Operation not permitted
Link detected: yes

Mais quand je teste avec :
$ time scp ~/tmp/test poste_sans_probleme:/dev/null
test 100%
500MB 112.0MB/s 00:04

real 0m4,648s
user 0m0,864s
sys 0m0,745s

$ time scp ~/tmp/test 192.168.5.7:/dev/null
test 100%
500MB 24.9MB/s 00:20

real 0m27,867s
user 0m0,952s
sys 0m0,341s

Défaillance de la carte réseau intégrée ?
Je n'ai jamais rencontré ce type de défaut. Pour moi ça a toujours été
on/off. Ça fonctionne, ou c'est HS.

CÍ¢ble réseau ? Possible, il est long, et pas simple Í remplacer pour un
test. J'imagine qu'il n'y a pas d'autre moyen que de le remplacer pour
tester.

Je déplacerai la machine dès que je pourrai, pour tester sur un autre
cÍ¢ble.

En fait, je n'ai jamais eu de défaut de ce genre, encore moins lié Í un
cÍ¢ble... Je pensais que c'était lÍ aussi assez binaire, soit c'est bon,
soit c'est HS, même si je comprends bien que ça puisse être dégradé.

Vous avez filtré cet utilisateur ! Consultez son message

Le Mon, 6 Dec 2021 17:10:00 -0000 (UTC),
Marc SCHAEFER a écrit :

Christophe PEREZ wrote:
6 Go/10 min == 10 MByte/s.

Et ?
Ça, c'est en temps normal.

C'est déjÍ assez lent, en fait. Cela peut être lié au temps de
compression ou de collecte de tas de petits fichiers.

Oui, voilÍ , c'est lié Í la lecture, et Í tout le processus de backup
qui n'est pas juste une copie de fichier, compression etc...
Je donnais la valeur juste pour que l'on soit bien conscient que je ne
parle pas d'un léger ralentissement mais de quelque chose tout Í fait
hors du commun.

Oui, avec débit indiqué par hdparm on s'attendra Í un backup en 2
minutes.

On reste quand même dans le même ordre de grandeur, on ne passe pas de
quelques minutes Í 13 heures.

Maintenant, l'écriture est peut-être bien plus lente que la lecture
testée par hdparm.

L'écriture ne se faisant pas sur la même machine surtout. Et c'est lÍ
qu'intervient le réseau. Je pensais l'avoir sous-entendu, mais je me
rends compte que ce n'était pas forcément suffisamment explicite.

Même une connexion ssh prend du temps Í s'effectuer.

Ceci fait penser Í un problème de DNS.

A priori non, j'ai mon serveur DNS, rien n'a changé, le poste est connu
Les résultats sont identiques avec l'adresse IP.

des processus étranges qui tournent (top, htop) et prennent du CPU ou
de la mémoire?

Non, rien de rien justement.

Le système swappe-t-il activement (colonnes si et so de `vmstat 5`,
laisser tourner quelques minutes, la 1ère ligne est une moyenne).

Non, ce n'est pas ça non plus. Tous ces tests sont faits après reboot,
sans rien qui tourne hormis les services "normaux" et sddm.
Aucun outil ne montre le moindre élément suspect.
vmstat 5, si et so = 0.

Des erreurs dans `sudo dmesg | tail' ?

Rien ne me saute aux yeux.
Je me demande si en fait tout n'est pas qu'une question de problème de
réseau, que j'aurais Í tort écarté trop tÍ´t je ne sais plus pour quelle
raison. Vu qu'en plus le /home est en NFS, le réseau y est crucial.
une simple connexion ssh peut prendre 3 ou 13sec... (mais 10sec est le
cas général)
$ time ssh 192.168.5.7 echo
real 0m10,577s
user 0m0,000s
sys 0m0,009s
$ time ssh 192.168.5.7 echo
real 0m3,756s
user 0m0,005s
sys 0m0,005s
$ time ssh 192.168.5.7 echo
real 0m13,965s
user 0m0,009s
sys 0m0,000s
Pourtant, ethtool ne me semble pas montrer de défaut
$ ethtool eth0
Settings for eth0:
Supported ports: [ MII ]
Supported link modes: 10baseT/Half 10baseT/Full
100baseT/Half 100baseT/Full
1000baseT/Full
Supported pause frame use: No
Supports auto-negotiation: Yes
Supported FEC modes: Not reported
Advertised link modes: 10baseT/Half 10baseT/Full
100baseT/Half 100baseT/Full
1000baseT/Full
Advertised pause frame use: No
Advertised auto-negotiation: Yes
Advertised FEC modes: Not reported
Speed: 1000Mb/s
Duplex: Full
Auto-negotiation: on
Port: MII
PHYAD: 1
Transceiver: internal
netlink error: Operation not permitted
Link detected: yes
Mais quand je teste avec :
$ time scp ~/tmp/test poste_sans_probleme:/dev/null
test 100%
500MB 112.0MB/s 00:04
real 0m4,648s
user 0m0,864s
sys 0m0,745s
$ time scp ~/tmp/test 192.168.5.7:/dev/null
test 100%
500MB 24.9MB/s 00:20
real 0m27,867s
user 0m0,952s
sys 0m0,341s
Défaillance de la carte réseau intégrée ?
Je n'ai jamais rencontré ce type de défaut. Pour moi ça a toujours été
on/off. Ça fonctionne, ou c'est HS.
CÍ¢ble réseau ? Possible, il est long, et pas simple Í remplacer pour un
test. J'imagine qu'il n'y a pas d'autre moyen que de le remplacer pour
tester.
Je déplacerai la machine dès que je pourrai, pour tester sur un autre
cÍ¢ble.
En fait, je n'ai jamais eu de défaut de ce genre, encore moins lié Í un
cÍ¢ble... Je pensais que c'était lÍ aussi assez binaire, soit c'est bon,
soit c'est HS, même si je comprends bien que ça puisse être dégradé.

Marc SCHAEFER

07/12/2021 à 10:58

Christophe PEREZ wrote:

C'est déjÍ assez lent, en fait. Cela peut être lié au temps de
compression ou de collecte de tas de petits fichiers.

Oui, voilÍ , c'est lié Í la lecture, et Í tout le processus de backup
qui n'est pas juste une copie de fichier, compression etc...
Je donnais la valeur juste pour que l'on soit bien conscient que je ne
parle pas d'un léger ralentissement mais de quelque chose tout Í fait
hors du commun.

Je ne suis plus sÍ»r alors ce qu'est le hdparm que tu as montré: disque
source ou disque destination?

On reste quand même dans le même ordre de grandeur, on ne passe pas de
quelques minutes Í 13 heures.

Effectivement.

L'écriture ne se faisant pas sur la même machine surtout. Et c'est lÍ
qu'intervient le réseau. Je pensais l'avoir sous-entendu, mais je me
rends compte que ce n'était pas forcément suffisamment explicite.

un petit schéma:
machine 1 ---------- réseau --------------- machine 2
| |
disque 1 disque 2
(l'ASCII art ne se lit bien que sans coupures de lignes et avec une
fonte non proportionnelle).

Je me demande si en fait tout n'est pas qu'une question de problème de
réseau, que j'aurais Í tort écarté trop tÍ´t je ne sais plus pour quelle
raison. Vu qu'en plus le /home est en NFS, le réseau y est crucial.

Ah oui, cette information manquait.

Défaillance de la carte réseau intégrée ?

Tu peux regarder les compteurs d'erreur (netstat -i).
Tu peux aussi éventuellement vérifier que tu as bien le paquet firmware
de ta carte réseau.
Tu peux changer les cÍ¢bles et le port du switch.

CÍ¢ble réseau ? Possible, il est long, et pas simple Í remplacer pour un
test. J'imagine qu'il n'y a pas d'autre moyen que de le remplacer pour
tester.

Ce qui arrive parfois est que la négociation boucle: symptÍ´me, plein de
up/down dans dmesg (que tu n'as pas observé).
Le débit négocié est correct.
Conclusion: oui, c'est le réseau, probablement le cÍ¢ble.

Christophe PEREZ <chris@novazur.fr> wrote:

C'est déjÍ assez lent, en fait. Cela peut être lié au temps de
compression ou de collecte de tas de petits fichiers.

Oui, voilÍ , c'est lié Í la lecture, et Í tout le processus de backup
qui n'est pas juste une copie de fichier, compression etc...
Je donnais la valeur juste pour que l'on soit bien conscient que je ne
parle pas d'un léger ralentissement mais de quelque chose tout Í fait
hors du commun.

Je ne suis plus sÍ»r alors ce qu'est le hdparm que tu as montré: disque
source ou disque destination?

On reste quand même dans le même ordre de grandeur, on ne passe pas de
quelques minutes Í 13 heures.

Effectivement.

L'écriture ne se faisant pas sur la même machine surtout. Et c'est lÍ
qu'intervient le réseau. Je pensais l'avoir sous-entendu, mais je me
rends compte que ce n'était pas forcément suffisamment explicite.

un petit schéma:

machine 1 ---------- réseau --------------- machine 2
| |
disque 1 disque 2

(l'ASCII art ne se lit bien que sans coupures de lignes et avec une
fonte non proportionnelle).

Je me demande si en fait tout n'est pas qu'une question de problème de
réseau, que j'aurais Í tort écarté trop tÍ´t je ne sais plus pour quelle
raison. Vu qu'en plus le /home est en NFS, le réseau y est crucial.

Ah oui, cette information manquait.

Défaillance de la carte réseau intégrée ?

Tu peux regarder les compteurs d'erreur (netstat -i).

Tu peux aussi éventuellement vérifier que tu as bien le paquet firmware
de ta carte réseau.

Tu peux changer les cÍ¢bles et le port du switch.

CÍ¢ble réseau ? Possible, il est long, et pas simple Í remplacer pour un
test. J'imagine qu'il n'y a pas d'autre moyen que de le remplacer pour
tester.

Ce qui arrive parfois est que la négociation boucle: symptÍ´me, plein de
up/down dans dmesg (que tu n'as pas observé).

Le débit négocié est correct.

Conclusion: oui, c'est le réseau, probablement le cÍ¢ble.

Vous avez filtré cet utilisateur ! Consultez son message

Christophe PEREZ wrote:

C'est déjÍ assez lent, en fait. Cela peut être lié au temps de
compression ou de collecte de tas de petits fichiers.

Oui, voilÍ , c'est lié Í la lecture, et Í tout le processus de backup
qui n'est pas juste une copie de fichier, compression etc...
Je donnais la valeur juste pour que l'on soit bien conscient que je ne
parle pas d'un léger ralentissement mais de quelque chose tout Í fait
hors du commun.

Je ne suis plus sÍ»r alors ce qu'est le hdparm que tu as montré: disque
source ou disque destination?

On reste quand même dans le même ordre de grandeur, on ne passe pas de
quelques minutes Í 13 heures.

Effectivement.

L'écriture ne se faisant pas sur la même machine surtout. Et c'est lÍ
qu'intervient le réseau. Je pensais l'avoir sous-entendu, mais je me
rends compte que ce n'était pas forcément suffisamment explicite.

un petit schéma:
machine 1 ---------- réseau --------------- machine 2
| |
disque 1 disque 2
(l'ASCII art ne se lit bien que sans coupures de lignes et avec une
fonte non proportionnelle).

Je me demande si en fait tout n'est pas qu'une question de problème de
réseau, que j'aurais Í tort écarté trop tÍ´t je ne sais plus pour quelle
raison. Vu qu'en plus le /home est en NFS, le réseau y est crucial.

Ah oui, cette information manquait.

Défaillance de la carte réseau intégrée ?

Tu peux regarder les compteurs d'erreur (netstat -i).
Tu peux aussi éventuellement vérifier que tu as bien le paquet firmware
de ta carte réseau.
Tu peux changer les cÍ¢bles et le port du switch.

CÍ¢ble réseau ? Possible, il est long, et pas simple Í remplacer pour un
test. J'imagine qu'il n'y a pas d'autre moyen que de le remplacer pour
tester.

Ce qui arrive parfois est que la négociation boucle: symptÍ´me, plein de
up/down dans dmesg (que tu n'as pas observé).
Le débit négocié est correct.
Conclusion: oui, c'est le réseau, probablement le cÍ¢ble.

Christophe PEREZ

07/12/2021 à 15:17

Le Tue, 7 Dec 2021 09:58:51 -0000 (UTC),
Marc SCHAEFER a écrit :

Je ne suis plus sÍ»r alors ce qu'est le hdparm que tu as montré: disque
source ou disque destination?

Disque source. Le disque destination ne peut pas être en cause, sinon
il le serait pour tous les backups de tous les postes, et pas seulement
celui-ci (je sais, je suis le seul Í le savoir, mais je ne l'ai pas mis
en cause justement parce que je le sais ;) .

un petit schéma:
machine 1 ---------- réseau --------------- machine 2
| |
disque 1 disque 2

C'est ça.

Ah oui, cette information manquait.

Désolé. Grossière omission, mais ça venait du fait que j'avais écarté
la piste du réseau trop tÍ´t. J'avais fait un test sur téléchargement de
fichier de mon serveur http, mais sans doute fichier trop petit (18Mo),
je n'avais pas plus gros sous la main Í ce moment. Et le temps était le
même sur les 2 machines. J'ai déduit trop vite.

Défaillance de la carte réseau intégrée ?

Tu peux regarder les compteurs d'erreur (netstat -i).

$ netstat -i
Table d'interfaces noyau
Iface MTU RX-OK RX-ERR RX-DRP RX-OVR TX-OK TX-ERR TX-DRP TX-OVR Flg
eth0 1500 747186 0 0 0 97050 0 0 0 BMRU
lo 65536 790 0 0 0 790 0 0 0 LRU
J'en déduis que ce n'est pas la carte réseau la cause.

Tu peux aussi éventuellement vérifier que tu as bien le paquet
firmware de ta carte réseau.

Non, ça non :) Il tourne comme ça depuis 2006. Pas de raison que ça
vienne de la. De plus, c'est un module du noyau. Et comme je l'ai dit
initialement, rien n'a été modifié logiciellement avant la défaillance.

Tu peux changer les cÍ¢bles et le port du switch.

Le cÍ¢ble c'est compliqué. Il faut que je déplace la machine pour la
tester sur un autre cÍ¢ble. C'est prévu.
Pour le port du switch, j'y ai pensé, mais je n'étais pas sÍ»r que ça
puisse avoir une influence. J'ai éteint et rallumé le switch sans
succès, mais pour changer de port, c'est un tout petit peu plus
compliqué. Je vais m'y ateler.

Ce qui arrive parfois est que la négociation boucle: symptÍ´me, plein
de up/down dans dmesg (que tu n'as pas observé).

Moi je ne vois rien.
http://dpaste.com/8EJ6NMCJ6

Le débit négocié est correct.
Conclusion: oui, c'est le réseau, probablement le cÍ¢ble.

Sans doute, Í moins que le switch soit en cause, comme évoqué.
Merci pour ton aide au diagnostique.
Je reviendrai quand j'aurai pu faire les manipulations.

Le Tue, 7 Dec 2021 09:58:51 -0000 (UTC),
Marc SCHAEFER <schaefer@alphanet.ch> a écrit :

Je ne suis plus sÍ»r alors ce qu'est le hdparm que tu as montré: disque
source ou disque destination?

Disque source. Le disque destination ne peut pas être en cause, sinon
il le serait pour tous les backups de tous les postes, et pas seulement
celui-ci (je sais, je suis le seul Í le savoir, mais je ne l'ai pas mis
en cause justement parce que je le sais ;) .

un petit schéma:

machine 1 ---------- réseau --------------- machine 2
| |
disque 1 disque 2

C'est ça.

Ah oui, cette information manquait.

Désolé. Grossière omission, mais ça venait du fait que j'avais écarté
la piste du réseau trop tÍ´t. J'avais fait un test sur téléchargement de
fichier de mon serveur http, mais sans doute fichier trop petit (18Mo),
je n'avais pas plus gros sous la main Í ce moment. Et le temps était le
même sur les 2 machines. J'ai déduit trop vite.

> Défaillance de la carte réseau intégrée ?

Tu peux regarder les compteurs d'erreur (netstat -i).

$ netstat -i
Table d'interfaces noyau
Iface MTU RX-OK RX-ERR RX-DRP RX-OVR TX-OK TX-ERR TX-DRP TX-OVR Flg
eth0 1500 747186 0 0 0 97050 0 0 0 BMRU
lo 65536 790 0 0 0 790 0 0 0 LRU

J'en déduis que ce n'est pas la carte réseau la cause.

Tu peux aussi éventuellement vérifier que tu as bien le paquet
firmware de ta carte réseau.

Non, ça non :) Il tourne comme ça depuis 2006. Pas de raison que ça
vienne de la. De plus, c'est un module du noyau. Et comme je l'ai dit
initialement, rien n'a été modifié logiciellement avant la défaillance.

Tu peux changer les cÍ¢bles et le port du switch.

Le cÍ¢ble c'est compliqué. Il faut que je déplace la machine pour la
tester sur un autre cÍ¢ble. C'est prévu.
Pour le port du switch, j'y ai pensé, mais je n'étais pas sÍ»r que ça
puisse avoir une influence. J'ai éteint et rallumé le switch sans
succès, mais pour changer de port, c'est un tout petit peu plus
compliqué. Je vais m'y ateler.

Ce qui arrive parfois est que la négociation boucle: symptÍ´me, plein
de up/down dans dmesg (que tu n'as pas observé).

Moi je ne vois rien.
http://dpaste.com/8EJ6NMCJ6

Le débit négocié est correct.

Conclusion: oui, c'est le réseau, probablement le cÍ¢ble.

Sans doute, Í moins que le switch soit en cause, comme évoqué.

Merci pour ton aide au diagnostique.
Je reviendrai quand j'aurai pu faire les manipulations.

Vous avez filtré cet utilisateur ! Consultez son message

Le Tue, 7 Dec 2021 09:58:51 -0000 (UTC),
Marc SCHAEFER a écrit :

Je ne suis plus sÍ»r alors ce qu'est le hdparm que tu as montré: disque
source ou disque destination?

Disque source. Le disque destination ne peut pas être en cause, sinon
il le serait pour tous les backups de tous les postes, et pas seulement
celui-ci (je sais, je suis le seul Í le savoir, mais je ne l'ai pas mis
en cause justement parce que je le sais ;) .

un petit schéma:
machine 1 ---------- réseau --------------- machine 2
| |
disque 1 disque 2

C'est ça.

Ah oui, cette information manquait.

Désolé. Grossière omission, mais ça venait du fait que j'avais écarté
la piste du réseau trop tÍ´t. J'avais fait un test sur téléchargement de
fichier de mon serveur http, mais sans doute fichier trop petit (18Mo),
je n'avais pas plus gros sous la main Í ce moment. Et le temps était le
même sur les 2 machines. J'ai déduit trop vite.

Défaillance de la carte réseau intégrée ?

Tu peux regarder les compteurs d'erreur (netstat -i).

$ netstat -i
Table d'interfaces noyau
Iface MTU RX-OK RX-ERR RX-DRP RX-OVR TX-OK TX-ERR TX-DRP TX-OVR Flg
eth0 1500 747186 0 0 0 97050 0 0 0 BMRU
lo 65536 790 0 0 0 790 0 0 0 LRU
J'en déduis que ce n'est pas la carte réseau la cause.

Tu peux aussi éventuellement vérifier que tu as bien le paquet
firmware de ta carte réseau.

Non, ça non :) Il tourne comme ça depuis 2006. Pas de raison que ça
vienne de la. De plus, c'est un module du noyau. Et comme je l'ai dit
initialement, rien n'a été modifié logiciellement avant la défaillance.

Tu peux changer les cÍ¢bles et le port du switch.

Le cÍ¢ble c'est compliqué. Il faut que je déplace la machine pour la
tester sur un autre cÍ¢ble. C'est prévu.
Pour le port du switch, j'y ai pensé, mais je n'étais pas sÍ»r que ça
puisse avoir une influence. J'ai éteint et rallumé le switch sans
succès, mais pour changer de port, c'est un tout petit peu plus
compliqué. Je vais m'y ateler.

Ce qui arrive parfois est que la négociation boucle: symptÍ´me, plein
de up/down dans dmesg (que tu n'as pas observé).

Moi je ne vois rien.
http://dpaste.com/8EJ6NMCJ6

Le débit négocié est correct.
Conclusion: oui, c'est le réseau, probablement le cÍ¢ble.

Sans doute, Í moins que le switch soit en cause, comme évoqué.
Merci pour ton aide au diagnostique.
Je reviendrai quand j'aurai pu faire les manipulations.

lenteur disque (Í confirmer)

10 réponses

Veuillez sélectionner un problème