Twitter iPhone pliant OnePlus 11 PS5 Disney+ Orange Livebox Windows 11

1 Currently unreadable (pending) sectors : je panique ?

8 réponses
Avatar
Daniel Déchelotte
Bonjour,

Depuis qu'un fsck de routine (après 30 montages) m'a détecté un
problème sur le DD, mon syslog contient régulièrement la ligne
suivante :

Mar 22 17:50:00 igloo smartd[5738]: Device: /dev/hda, 1 Currently unreadable (pending) sectors

Questions en vrac : le "pending" semble suggérer qu'il y a quelque
chose à faire pour éviter le secteur défectueux, quelle commande
lancer ? Est-ce que cela va dégénérer ? Ou bien la "vie" de mon DD peut
continuer si j'évite le secteur défectueux ?

Pour l'instant, je ne remarque rien d'anormal quand j'utilise mon ordi.

--
Daniel Déchelotte
http://yo.dan.free.fr/


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to debian-user-french-REQUEST@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmaster@lists.debian.org

8 réponses

Avatar
Jean-Michel OLTRA
bonjour,


Le mercredi 22 mars 2006, Daniel Déchelotte a écrit...


Mar 22 17:50:00 igloo smartd[5738]: Device: /dev/hda, 1 Currently unreadable (pending) sectors



Questions en vrac : le "pending" semble suggérer qu'il y a quelque
chose à faire pour éviter le secteur défectueux, quelle commande
lancer ? Est-ce que cela va dégénérer ? Ou bien la "vie" de mon DD peut
continuer si j'évite le secteur défectueux ?



badblocks -o et e2fsck -l ou -L ?? Jamais fait...

--
jm



--
Pensez
Avatar
Gurvan Huiban
Le Mercredi 22 Mars 2006 14:03, Daniel Déchelotte a écrit :
Questions en vrac : le "pending" semble suggérer qu'il y a quelque
chose à faire pour éviter le secteur défectueux, quelle commande
lancer ? Est-ce que cela va dégénérer ? Ou bien la "vie" de mon DD peut
continuer si j'évite le secteur défectueux ?

Pour l'instant, je ne remarque rien d'anormal quand j'utilise mon ordi.



De ma (faible) expérience, on n'a aucun moyen de savoir si ça va dég énérer ou
si ton DD va continuer de vivre pendant des années sans le moindre (autre )
problème.

Je conseille:
- d'abord un coup de badblocks sur la partition. Ça marque le secteur
défectueux, l'OS n'essaie plus d'y accéder. Ça peut être suffisant.
- si après ça tu continues d'avoir des problèmes, une formatation b as niveau
du disque dur peut remettre tout ça d'équerre.
- si après la formatation bas niveau le problème revient, changer de disque
dur devient une option à considérer très fortement.

Et faire des backups régulièrement, ça va de soi...

--
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
Gurvan Huiban

"What about a nice cup of coffee?" (self-citation)
Avatar
Frédéric BOITEUX
Le mer 22 mar 2006 18:03:28 CET, Daniel Déchelotte
a écrit :

Bonjour,

Depuis qu'un fsck de routine (après 30 montages) m'a détecté un
problème sur le DD, mon syslog contient régulièrement la ligne
suivante :

Mar 22 17:50:00 igloo smartd[5738]: Device: /dev/hda, 1 Currently unreada ble (pending) sectors

Questions en vrac : le "pending" semble suggérer qu'il y a quelque
chose à faire pour éviter le secteur défectueux, quelle commande
lancer ? Est-ce que cela va dégénérer ? Ou bien la "vie" de mon DD peut
continuer si j'évite le secteur défectueux ?




Salut,

Alors, bon, voilà : panique !
...
Ça y est ? Bon, tu peux t'arrêter là, ça suffit ;-) Sérieusement, ce n'est pas
parce qu'un secteur de ton disque est illisible que le disque entier est
fichu (regarde un peu combien il en a) ! En fait, cela arrive parfois sans que
tu le saches, car ton disque sait ré-allouer des secteurs lorsqu'il n'arr ive
pas à accéder à d'autres. Simplement, si on lui demande de lire un se cteur et
qu'il n'y arrive pas, il ne peut le ré-allouer ailleurs tant qu'il ne sai t pas
quoi y mettre, ce que t'indique le message ci-dessus !

Ce que je te conseille, c'est d'installer si ce n'est déjà fait le pa quet
smartmontools, qui entre autres te permettra d'accéder aux informations de
santé de ton disque, et de lui demander de faire des tests régulièrem ent.
Si tu veux supprimer ce message, il te faudra identifier le secteur défe ctueux
et le corriger, soit en lisant le
'BadBlock howto' (http://smartmontools.sourceforge.net/BadBlockHowTo.txt),
sinon je peux te passer en privé une ébauche de doc en français...

Fred.
Avatar
Daniel Déchelotte
Bonjour,

Merci pour vos réponses, je vous reviens après des expériences peu
fructueuses.

Frédéric BOITEUX a écrit :

Daniel Déchelotte a écrit :

> Mar 22 17:50:00 igloo smartd[5738]: Device: /dev/hda, 1 Currently
> unreadable (pending) sectors

Alors, bon, voilà : panique !



Woah !!

Sérieusement, ce n'est pas parce qu'un secteur de ton disque est
illisible que le disque entier est fichu [...]



Aah :)

Jean-Michel OLTRA a écrit :

badblocks -o et e2fsck -l ou -L ?? Jamais fait...



Comme la doc l'indique, j'ai plutot fait des e2fsck -c, mais « rien ne
s'est produit ». Pas d'affichage « j'ai trouvé un bad block », et
toujours le message de smartd.

[...] Si tu veux supprimer ce message, il te faudra
identifier le secteur défectueux et le corriger, soit en lisant le
'BadBlock howto' (http://smartmontools.sourceforge.net/BadBlockHowTo.txt),



Très intéressant, merci pour la lecture.

Voici des extraits de ce que revoient les commandes :
# smartctl -A /dev/hda
5 Reallocated_Sector_Ct 0x0033 100 100 005 Pre-fail Always - 0
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 1
197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 1
198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline - 0

Donc là je crois comprendre que mon problème persiste, mais :

# smartctl -l selftest /dev/hda
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed without error 00% 1411 -
# 2 Short offline Completed without error 00% 1401 -
# 3 Short offline Completed without error 00% 1326 -
# 4 Short captive Completed without error 00% 1000 -
# 5 Short captive Completed without error 00% 1000 -
# 6 Short offline Completed: read failure 70% 997 16581
# 7 Short offline Completed: read failure 70% 996 16581

Un bloc aurait eu un problème, mais il se serait rétabli ?

J'ai fait un fdisk -c (test en lecture) sur toutes les partitions, et un
"-c -c" (test en ecriture) sur /dev/hda1, sans qu'il ne trouve rien... Je
ne suis pas sur que ce soit plus rassurant que d'avoir un bloc franchement
défectueux. :-/

--
Daniel Déchelotte
http://yo.dan.free.fr/


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Frédéric BOITEUX
Le ven 24 mar 2006 12:36:11 CET, Daniel Déchelotte
a écrit :

Bonjour,



Salut !

Voici des extraits de ce que revoient les commandes :
# smartctl -A /dev/hda
5 Reallocated_Sector_Ct 0x0033 100 100 005 Pre-fail Always - 0
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 1
197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 1
198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline - 0



Oui, je ne me rappelle plus si c'est expliqué dans le BadBlockHowto, mais le
message que tu as (qui correspond au '1' en fin de la ligne :
197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 1)
persistera tant que le disque ne saura pas quoi écrire dans ce bloc qu'il sait
défectueux : le seul moyen de faire disparaître le message est d'écri re quelque
chose (généralement des zéros) dans le bloc qui lui pose problème : il
abandonnera alors le bloc qu'il sait défectueux, et en ré-allouera un
nouveau pour y écrire ces données. Tu devrais alors avoir le compteur
'Reallocated_Sector_Ct' incrémenté.

Donc là je crois comprendre que mon problème persiste, mais :

# smartctl -l selftest /dev/hda
Num Test_Description Status Remaining LifeTime(hour s) LBA_of_first_error
# 1 Short offline Completed without error 00% 1411 -
# 2 Short offline Completed without error 00% 1401 -
# 3 Short offline Completed without error 00% 1326 -
# 4 Short captive Completed without error 00% 1000 -
# 5 Short captive Completed without error 00% 1000 -
# 6 Short offline Completed: read failure 70% 997 16581
# 7 Short offline Completed: read failure 70% 996 16581

Un bloc aurait eu un problème, mais il se serait rétabli ?



Le test court ne parcours sans doute pas tout le disque (essaie un test lon g :
smartctl -t long /dev/hda) ...


J'ai fait un fdisk -c (test en lecture) sur toutes les partitions, et un
"-c -c" (test en ecriture) sur /dev/hda1, sans qu'il ne trouve rien... Je
ne suis pas sur que ce soit plus rassurant que d'avoir un bloc franchement
défectueux. :-/



Connais-tu le numéro de bloc qui pose problème ? si oui, il faut appliq uer la
méthode expliquée dans le howto pour corriger définitivement le probl ème.

Fred.
Avatar
Daniel Déchelotte
Frédéric BOITEUX a écrit :

Oui, je ne me rappelle plus si c'est expliqué dans le BadBlockHowto,
mais le message que tu as (qui correspond au '1' en fin de la ligne :
197 Current_Pending_Sector 0x0022 100 100 000 Old_age
Always - 1) persistera tant que le disque ne saura pas
quoi écrire dans ce bloc qu'il sait défectueux : le seul moyen de
faire disparaître le message est d'écrire quelque chose (généralement
des zéros) dans le bloc qui lui pose problème : il abandonnera alors
le bloc qu'il sait défectueux, et en ré-allouera un nouveau pour y
écrire ces données. Tu devrais alors avoir le compteur
'Reallocated_Sector_Ct' incrémenté.



Ok. J'ai commencé à suivre les instructions, mais me suis arreté juste
avant le « THIS LAST STEP HAS PERMANENTLY AND IRRETREVIABLY DESTROYED
SOME OF THE DATA THAT WAS IN THIS FILE. » :)

Le test court ne parcours sans doute pas tout le disque (essaie un
test long : smartctl -t long /dev/hda) ...



Je viens de le faire. Voici la nouvelle sortie de smartctl -l selftest /dev/hda

Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed without error 00% 8127 -
# 2 Short offline Completed without error 00% 1411 -
# 3 Short offline Completed without error 00% 1401 -
# 4 Short offline Completed without error 00% 1326 -
# 5 Short captive Completed without error 00% 1000 -
# 6 Short captive Completed without error 00% 1000 -
# 7 Short offline Completed: read failure 70% 997 16581
# 8 Short offline Completed: read failure 70% 996 16581

Premiere remarque : cela faisait un bail que je n'avais pas fait de
test. smartmontools ne devrait pas programmer des tests régulièrement ?

Seconde remarque : plus de probleme, apparemment.

Suivant la doc, j'ai fait
# fdisk -lu /dev/hda
/dev/hda1 63 499967 249952+ 83 Linux
[...]
Donc le secteur défectueux (16581) serait sur /dev/hda1

# tune2fs -l /dev/hda1 | grep Block
Block count: 249952
Block size: 1024
Blocks per group: 8192

Ok, taille de 1024. Je fais son calcul :
# echo "(16581 - 63) * 512 / 1024" | bc
8259

Ok, bloc numero 8259. Je regarde quel fichier l'utilise :
# debugfs
debugfs 1.39-WIP (31-Dec-2005)
debugfs: open /dev/hda1
debugfs: icheck 8259
Block Inode number
8259 <block not found>

Donc il n'est pas utilisé. (?)

Je m'appretais à faire ceci :
dd if=/dev/hda1 of=/root/backup_dev_hda1_8259 bs24 count=1 skip‚59
dd if=/dev/zero of=/dev/hda1 bs24 count=1 seek‚59
(si ca plante, chouette, sinon, ben tant mieux aussi et je remets :
dd if=/root/backup_dev_hda1_8259 of=/deb/hda1 bs24 count=1 seek‚59)

/dev/hda1 est ma racine, donc je prends quelques précautions. (par
exemple, j'ai failli inverser skip et seek, ce qui aurait été du
meilleur effet :)

--
Daniel Déchelotte
http://yo.dan.free.fr/


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Daniel Déchelotte
Daniel Déchelotte a écrit :

Frédéric BOITEUX a écrit :

> Oui, je ne me rappelle plus si c'est expliqué dans le BadBlockHowto,
> mais le message que tu as [...] persistera tant que le disque ne
> saura pas quoi écrire dans ce bloc qu'il sait défectueux : le seul
> moyen de faire disparaître le message est d'écrire quelque chose
> (généralement des zéros) dans le bloc qui lui pose problème : il
> abandonnera alors le bloc qu'il sait défectueux, et en ré-allouera
> un nouveau pour y écrire ces données. [...]

Ok. J'ai commencé à suivre les instructions, mais me suis arreté juste
avant le « THIS LAST STEP HAS PERMANENTLY AND IRRETREVIABLY DESTROYED
SOME OF THE DATA THAT WAS IN THIS FILE. » :)



Et maintenant j'ai passé l'étape irréversible. Résultat : pas de résultat
:-/. Je voudrais juste corriger une erreur de ma part :

Voici la nouvelle sortie de smartctl -l selftest /dev/hda

Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed without error 00% 8127 -
# 2 Short offline Completed without error 00% 1411 -
# 3 Short offline Completed without error 00% 1401 -
# 4 Short offline Completed without error 00% 1326 -
# 5 Short captive Completed without error 00% 1000 -
# 6 Short captive Completed without error 00% 1000 -
# 7 Short offline Completed: read failure 70% 997 16581
# 8 Short offline Completed: read failure 70% 996 16581
[...]
Donc le secteur défectueux est 16581



Non, il s'agit d'une erreur ancienne (il y a 7000 heures). Pour avoir le
bon bloc, faire : « smartctl -l error /dev/hda », qui me donne

[...]
Error 23 occurred at disk power-on lifetime: 7975 hours (332 days + 7 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 b5 7a 44 0f e0 Error: UNC 181 sectors at LBA = 0x000f447a = 1000570
[...]

Et j'ai suivi les instructions du BadBlockHowto pour le bloc 1000570.

Résultat : les dd (en lecture et en écriture) ont pu se faire sans accroc,
je reste avec mon « 1 Currently unreadable (pending) sectors ». Peut-etre
que c'était le cas depuis longtemps mais que le smartd de sarge ne
l'écrivait pas dans syslog. Seulement, peu de temps après les dd, mon
disque a fait un beep (ca lui arrive de temps en temps quand il travaille
beaucoup, par exemple pendant l'upgrade de sarge en testing). On verra ce
qu'il adviendra de mon disque...

Bon week-end (pluvieux, ici)
--
Daniel Déchelotte
http://yo.dan.free.fr/


--
Pensez à lire la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench

Pensez à rajouter le mot ``spam'' dans vos champs "From" et "Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Frédéric BOITEUX
Le ven 24 mar 2006 16:30:39 CET, Daniel Déchelotte
a écrit :

Premiere remarque : cela faisait un bail que je n'avais pas fait de
test. smartmontools ne devrait pas programmer des tests régulièrement ?


si tu le lui demandes, oui :-)
Modifie ton fichier /etc/default/smartmontools
pour avoir :
start_smartd=yes
et dans /etc/smartd.conf, avoir une ligne du genre :

DEVICESCAN -a -o on -S on -s (S/../.././02|L/../../6/03)
-m
-M test

Ce qui lancera un test court tous les jours à 2h du matin, et un test lon g le
dimanche à 3h du matin...


Seconde remarque : plus de probleme, apparemment.

Suivant la doc, j'ai fait
# fdisk -lu /dev/hda
/dev/hda1 63 499967 249952+ 83 Linux
[...]
Donc le secteur défectueux (16581) serait sur /dev/hda1

# tune2fs -l /dev/hda1 | grep Block
Block count: 249952
Block size: 1024
Blocks per group: 8192

Ok, taille de 1024. Je fais son calcul :
# echo "(16581 - 63) * 512 / 1024" | bc
8259

Ok, bloc numero 8259. Je regarde quel fichier l'utilise :
# debugfs
debugfs 1.39-WIP (31-Dec-2005)
debugfs: open /dev/hda1
debugfs: icheck 8259
Block Inode number
8259 <block not found>

Donc il n'est pas utilisé. (?)


oui, quand le problème arrive suite à un test automatique, il peut s'ag ir d'un
bloc non utilisé.


Je m'appretais à faire ceci :
dd if=/dev/hda1 of=/root/backup_dev_hda1_8259 bs24 count=1 ski p‚59
dd if=/dev/zero of=/dev/hda1 bs24 count=1 seek‚59
(si ca plante, chouette, sinon, ben tant mieux aussi et je remets :
dd if=/root/backup_dev_hda1_8259 of=/deb/hda1 bs24 count=1 se ek‚59)



c'est ce qu'il fallait faire... la sauvegarde ne sert à rien à priori : si elle
fonctionne, alors il n'y a pas de problème donc rien à faire. Si elle ne
fonctionne pas, elle ne sert pas non plus ...

/dev/hda1 est ma racine, donc je prends quelques précautions. (par
exemple, j'ai failli inverser skip et seek, ce qui aurait été du
meilleur effet :)


Oui, attention danger !

Ne pas oublier de faire un couple de 'sync' pour forcer l'écriture des bl ocs...


Sinon, il arrive que certains disques, même après un retour à la norm ale, ne
remettent pas à zéro le compteur de blocs en souffrance : du coup, tu t e les
traine ad vitam aeternam ...

Fred.