Valeurs SMART inquiétantes ?

14 réponses

Yannick Palanque

14/10/2007 à 18:56

B'jour,

J'ai un disque dur tout neuf (53 h d'activité) pour lequel j'ai des valeurs SMART plutôt inquiétantes, je trouve.

En particulier Raw_Read_Error_Rate et Reallocated_Sector_Ct.
Mais sinon il a l'air de bien marcher.

Est-ce qu'on peut vraiment se fier à ces valeurs ?
Autrement, ce n'est pas curieux pour un disque neuf ?

smartctl version 5.37 [i686-pc-linux-gnu] Copyright (C) 2002-6 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Model Family: Seagate Barracuda 7200.9 family
Device Model: ST3400833AS
Firmware Version: 3.AAD
User Capacity: 400,088,457,216 bytes
Device is: In smartctl database [for details use: -P show]
ATA Version is: 7
ATA Standard is: Exact ATA specification draft version not indicated
Local Time is: Sun Oct 14 18:44:54 2007 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 430) seconds.
Offline data collection
capabilities: (0x5b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 179) minutes.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 101 097 006 Pre-fail Always - 177752742
3 Spin_Up_Time 0x0003 097 097 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 18
5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 0
7 Seek_Error_Rate 0x000f 064 060 030 Pre-fail Always - 2853450
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 53
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 25
187 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 0
189 Unknown_Attribute 0x003a 100 100 000 Old_age Always - 0
190 Temperature_Celsius 0x0022 053 050 045 Old_age Always - 824967215
194 Temperature_Celsius 0x0022 047 050 000 Old_age Always - 47 (Lifetime Min/Max 0/24)
195 Hardware_ECC_Recovered 0x001a 055 052 000 Old_age Always - 168536371
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0000 100 253 000 Old_age Offline - 0
202 TA_Increase_Count 0x0032 100 253 000 Old_age Always - 0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed without error 00% 23 -
# 2 Short offline Completed without error 00% 11 -

SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

--
Yannick Palanque

10 réponses

1 2

pxg

14/10/2007 à 20:07

Yannick Palanque wrote:

B'jour,

Salut

J'ai un disque dur tout neuf (53 h d'activité) pour lequel j'ai des
valeurs SMART plutôt inquiétantes, je trouve.

En particulier Raw_Read_Error_Rate et Reallocated_Sector_Ct.
Mais sinon il a l'air de bien marcher.

Passe l'outil du fabricant et n'hésite pas à le retourner en RMA s'il est
annoncé comme comportant un défaut.

Est-ce qu'on peut vraiment se fier à ces valeurs ?
Autrement, ce n'est pas curieux pour un disque neuf ?

Les outils d'analyse du fournisseur interprètent mieux les données smart
qu'un utilisateur lambda ne saurait le faire, je me garderais bien de faire
l'exgèse des valeurs annoncées, même si je t'accorde que certaines me
paraissent inquiétantes.

Cordialement

pxg

Pascal Hambourg

14/10/2007 à 20:19

Salut,

J'ai un disque dur tout neuf (53 h d'activité) pour lequel j'ai des
valeurs SMART plutôt inquiétantes, je trouve.

En particulier Raw_Read_Error_Rate et Reallocated_Sector_Ct.

Voyons ça.

Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 101 097 006 Pre-fail Always - 177752742

Je n'ai pas la moindre idée de ce à quoi correspond la valeur brute,
mais la pire valeur normalisée enregistrée (097) est très loin du seuil
d'alerte (006), donc pas de quoi s'inquiéter a priori.

5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 0

La encore, la valeur normalisée (100) est loin du seuil d'alerte (036).
D'ailleurs la valeur brute est 0, ce qui signifie qu'aucun secteur n'a
dû être réalloué.

Quelles sont les valeurs qui vous inquiètent pxg et toi ?

Yannick Palanque

14/10/2007 à 20:26

Quelles sont les valeurs qui vous inquiètent pxg et toi ?

Hmm, peut-être me suis-je laissé abuser, mais j'avais cru comprendre (en
ayant regardé ces informations avec plusieurs de mes disques durs et en
m'étant renseigné un peu) que les valeurs intéressantes étaient les valeurs
brutes.

Par exemple, pour le Power_Cycle_Count, il est certainement de 25 et non de
100. Même "raisonnement" pour Power_On_Hours.

Par ailleurs, je voulais dire Seek_Error_Rate et non Reallocated_Sector_Ct,
pardon.

--
Yannick Palanque

Yannick Palanque

14/10/2007 à 20:31

Passe l'outil du fabricant et n'hésite pas à le retourner en RMA s'il est
annoncé comme comportant un défaut.

Le test long de SeaTools passe sans aucune erreur. J'ai envoyé un petit mail
à Seagate pour leur demander leur avis.
(je préfère recueillir plusieurs avis, déjà que le technicien francophone de
Seagate au téléphone n'a pas l'air de connaître les tenants et aboutissants
de la MBR et du POST... Il a même failli m'engueuler. :-D -- je leur avais
téléphoné suite à un soucis n'ayant rien à voir avec ce qui nous occupe
présentent)

Je pense à faire des sauvegardes régulièrement.

--
Yannick Palanque

Pascal Hambourg

14/10/2007 à 20:52

Quelles sont les valeurs qui vous inquiètent pxg et toi ?

Hmm, peut-être me suis-je laissé abuser, mais j'avais cru comprendre (en
ayant regardé ces informations avec plusieurs de mes disques durs et en
m'étant renseigné un peu) que les valeurs intéressantes étaient les valeurs
brutes.

Par exemple, pour le Power_Cycle_Count, il est certainement de 25 et non de
100. Même "raisonnement" pour Power_On_Hours.

Les valeurs brutes sont intéressantes pour un humain à titre
d'information, quand on peut les interpréter comme ici
Power_Cycle_Count, Power_On_Hours (et encore, certains modèles indiquent
le nombre de minutes et non d'heures), Reallocated_Sector_Ct, certaines
températures... D'autres valeurs brutes sont en revanche parfaitement
obscures comme justement les Error_Rate. Mais pour l'évaluation de la
santé du disque, ce sont les valeurs normalisées actuelles et pires
(colonnes VALUE et WORST) qu'on peut comparer à un seuil d'alerte
(colonne THRESH) qui comptent.

Par ailleurs, je voulais dire Seek_Error_Rate et non Reallocated_Sector_Ct,
pardon.

C'est un peu le même problème que pour Raw_Read_Error_Rate, la
signification de la valeur brute est obscure mais la valeur normalisée
est loin du seuil.

Yannick Palanque

15/10/2007 à 03:53

Mais pour l'évaluation de la
santé du disque, ce sont les valeurs normalisées actuelles et pires
(colonnes VALUE et WORST) qu'on peut comparer à un seuil d'alerte
(colonne THRESH) qui comptent.

Ah, effectivement, je comprends mieux.
Merci beaucoup.

--
Yannick Palanque

Yannick Palanque

15/10/2007 à 06:47

D'accord, les valeurs SMART n'ont pas forcément de rapport avec ceci, mais
je le sens mal ce disque ! ;-)

Error 1 occurred at disk power-on lifetime: 62 hours (2 days + 14 hours)
When the command that caused the error occurred, the device was active or
idle
.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
84 51 0f 7a e4 74 e0 Error: ICRC, ABRT 15 sectors at LBA = 0x0074e47a 76606
66

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
25 00 20 69 e4 74 e0 00 1d+02:46:36.691 READ DMA EXT
25 00 20 41 bc 70 e0 00 1d+02:46:36.661 READ DMA EXT
25 00 00 41 e8 6e e0 00 1d+02:46:36.891 READ DMA EXT
25 00 40 01 e8 6e e0 00 1d+02:46:36.829 READ DMA EXT
25 00 70 49 72 77 e0 00 1d+02:46:36.826 READ DMA EXT

pxg

15/10/2007 à 17:36

Yannick Palanque wrote:

Quelles sont les valeurs qui vous inquiètent pxg et toi ?

C'est surtout parce qu'il y a des lignes où je lis pré-fail quie je suis
inquiet, mais comme je ne sais pas interpréter exhaustivement les données
brutes c'est la raison pour laquelle je m'en remets à l'outil du fournisseur
pour confirmer ou infirmer mon diagnostic.

[hs] Lire les données SMART peut faire le même effet que la consultation
d'un dictionnaire médical, c'est - presque - sûr qu'on est atteint de la
maladie dont on lit les symptômes ! ;^)

petits liens pour l'interprétation
http://www.ginjfo.com/Publics/Actualites/Act1-1055-Tout-savoir-sur-la-sante-de-son-disque-dur.html
et là http://smartlinux.sourceforge.net/smart/attributes.php

Cordialement

pxg

Jean-Claude Ghislain

15/10/2007 à 17:41

[hs] Lire les données SMART peut faire le même effet que la
consultation d'un dictionnaire médical, c'est - presque - sûr qu'on
est atteint de la maladie dont on lit les symptômes ! ;^)

Les données SMART de ce disque n'étaient pas top presque depuis le
premier jour :
http://cjoint.com/?kowPSHOlFG

Quatre ans plus tard il fonctionne toujours avec des "SMART" qui n'ont
guère changé.

--
Jean-Claude Ghislain
www.grimart.com

Pascal Hambourg

15/10/2007 à 18:11

C'est surtout parce qu'il y a des lignes où je lis pré-fail que je suis
inquiet

Il ne faut pas. :-)
Comme son nom l'indique, la colonne TYPE indique le type de l'attribut,
pas son état. Le type "pre-fail" signifie non pas une panne imminente
mais seulement que si la valeur de l'attribut tombe en dessous du seuil
le risque de panne estimé devient important (ex: taux d'erreurs de
lecture). Le type "old_age" signifie que l'attribut est lié au
vieillissement normal du disque (ex: nombre de démarrages, heures de
fonctionnement).

C'est expliqué dans la page de manuel de smartcl mais je n'en ai pas
trouvé de version française.

1 2

Valeurs SMART inquiétantes ?

10 réponses

Veuillez sélectionner un problème