OVH Cloud OVH Cloud

raid soft erreur

27 réponses
Avatar
Christophe PEREZ
Bonjour,

Ce qui devait arriver semble être arrivé, mon raid soft m'indique un
problème.
(je ne sais pas si c'est normal, mais j'ai reçu un mail pour chaque
partition du raid 1)
# cat /proc/mdstat
Personalities : [raid0] [raid1]
md1 : active raid1 sdb1[2](F) sda1[0]
24000 blocks [2/1] [U_]
bitmap: 0/3 pages [0KB], 4KB chunk

md2 : active raid1 sdb2[2](F) sda2[0]
20000832 blocks [2/1] [U_]
bitmap: 6/153 pages [24KB], 64KB chunk

md3 : active raid1 sdb3[2](F) sda3[0]
2000000 blocks [2/1] [U_]
bitmap: 0/123 pages [0KB], 8KB chunk

md5 : active raid1 sdb5[2](F) sda5[0]
2995968 blocks [2/1] [U_]
bitmap: 7/183 pages [28KB], 8KB chunk

md6 : active raid1 sdb6[2](F) sda6[0]
30001280 blocks [2/1] [U_]
bitmap: 54/229 pages [216KB], 64KB chunk

md7 : active raid1 sdb7[2](F) sda7[0]
60002624 blocks [2/1] [U_]
bitmap: 36/229 pages [144KB], 128KB chunk

md8 : active raid1 sdb8[2](F) sda8[0]
861734528 blocks [2/1] [U_]
bitmap: 1/206 pages [4KB], 2048KB chunk

unused devices: <none>

Toutes les partitions ont un problème ?!?

# smartctl -a /dev/sdb
smartctl 5.42 2011-10-20 r3458 [x86_64-linux-2.6.32-openvz-feoktistov.1]
(local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

Short INQUIRY response, skip product id
A mandatory SMART command failed: exiting. To continue, add one or more '-
T permissive' options.

# smartctl -a -T permissive /dev/sdb
smartctl 5.42 2011-10-20 r3458 [x86_64-linux-2.6.32-openvz-feoktistov.1]
(local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

Short INQUIRY response, skip product id
SMART Health Status: OK
Read defect list: asked for grown list but didn't get it

Error Counter logging not supported
scsiModePageOffset: response length too short, resp_len=47 offset=50
bd_len=46
Device does not support Self Test logging

Par contre :
# smartctl -a /dev/sda
smartctl 5.42 2011-10-20 r3458 [x86_64-linux-2.6.32-openvz-feoktistov.1]
(local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Model Family: Seagate Barracuda 7200.12
Device Model: ST31000528AS
Serial Number: 9VP0G8JR
LU WWN Device Id: 5 000c50 014ef5ce3
Firmware Version: CC34
User Capacity: 1 000 204 886 016 bytes [1,00 TB]
Sector Size: 512 bytes logical/physical
Device is: In smartctl database [for details use: -P show]
ATA Version is: 8
ATA Standard is: ATA-8-ACS revision 4
Local Time is: Mon Apr 1 18:57:59 2013 AST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine
completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 609) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off
support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 198) minutes.
Conveyance self-test routine
recommended polling time: ( 2) minutes.
SCT capabilities: (0x103f) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE
UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 119 099 006 Pre-fail
Always - 234830234
3 Spin_Up_Time 0x0003 095 095 000 Pre-fail
Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age
Always - 184
5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail
Always - 13
7 Seek_Error_Rate 0x000f 083 060 030 Pre-fail
Always - 233811271
9 Power_On_Hours 0x0032 089 089 000 Old_age
Always - 10345
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail
Always - 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age
Always - 184
183 Runtime_Bad_Block 0x0000 100 100 000 Old_age
Offline - 0
184 End-to-End_Error 0x0032 100 100 099 Old_age
Always - 0
187 Reported_Uncorrect 0x0032 099 099 000 Old_age
Always - 1
188 Command_Timeout 0x0032 100 092 000 Old_age
Always - 65931
189 High_Fly_Writes 0x003a 100 100 000 Old_age
Always - 0
190 Airflow_Temperature_Cel 0x0022 067 058 045 Old_age
Always - 33 (Min/Max 30/37)
194 Temperature_Celsius 0x0022 033 042 000 Old_age
Always - 33 (0 20 0 0 0)
195 Hardware_ECC_Recovered 0x001a 044 020 000 Old_age
Always - 234830234
197 Current_Pending_Sector 0x0012 100 100 000 Old_age
Always - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age
Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age
Always - 0
240 Head_Flying_Hours 0x0000 100 253 000 Old_age
Offline - 178168128350801
241 Total_LBAs_Written 0x0000 100 253 000 Old_age
Offline - 894359103
242 Total_LBAs_Read 0x0000 100 253 000 Old_age
Offline - 2947947955

SMART Error Log Version: 1
ATA Error Count: 1
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 1 occurred at disk power-on lifetime: 6173 hours (257 days + 5
hours)
When the command that caused the error occurred, the device was doing
SMART Offline or Self-test.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 33 31 b6 0d Error: UNC at LBA = 0x0db63133 = 230043955

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
60 00 80 01 3f b6 4d 00 21d+11:26:20.618 READ FPDMA QUEUED
60 00 80 81 3e b6 4d 00 21d+11:26:20.617 READ FPDMA QUEUED
60 00 00 81 3d b6 4d 00 21d+11:26:20.600 READ FPDMA QUEUED
60 00 00 81 3c b6 4d 00 21d+11:26:20.599 READ FPDMA QUEUED
60 00 00 81 3b b6 4d 00 21d+11:26:20.597 READ FPDMA QUEUED

SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime
(hours) LBA_of_first_error
# 1 Short offline Completed without error 00%
8077 -
# 2 Short offline Completed without error 00%
8053 -
# 3 Short offline Completed without error 00%
8029 -
# 4 Short offline Completed without error 00%
8014 -
# 5 Short offline Completed without error 00%
8004 -
# 6 Short offline Completed without error 00%
7978 -
# 7 Short offline Completed without error 00%
7954 -
# 8 Short offline Completed without error 00%
7930 -
# 9 Short offline Completed without error 00%
7896 -
#10 Short offline Completed without error 00%
7872 -
#11 Short offline Completed without error 00%
7854 -
#12 Short offline Completed without error 00%
7830 -
#13 Short offline Completed without error 00%
7806 -
#14 Short offline Completed without error 00%
7782 -
#15 Short offline Completed without error 00%
7758 -
#16 Short offline Completed without error 00%
7738 -
#17 Short offline Completed without error 00%
7700 -
#18 Short offline Completed without error 00%
7676 -
#19 Short offline Completed without error 00%
7652 -
#20 Short offline Completed without error 00%
7628 -
#21 Short offline Completed without error 00%
7604 -

SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute
delay.

Les 2 disques sont du même modèle.
C'est mon sdb qui est totalement mort comme ça subitement ?
Je n'ai jamais eu de remontée d'erreur de smart...
J'avoue que je n'y connais vraiment pas grand chose à tout ça, et qu'en
plus le hard n'est pas mon fort.

Si ça vous parle, tant mieux... et merci d'avance.

10 réponses

1 2 3
Avatar
Emmanuel Florac
Le Thu, 04 Apr 2013 20:36:00 +0000, Christophe PEREZ a écrit:


LDLC vient de me répondre, ils me proposent un WD http://www.ldlc.com/
fiche/PB00134121.html
Mais là se repose la question de la capacité exacte...



Malheureusement je n'ai pas de WD 1 To 3,5'', donc je ne sais pas quelle
est leur taille.

--
L'esprit qu'on veut avoir gâte celui qu'on a.
Jean-Baptiste Louis Grisset.
Avatar
Christophe PEREZ
Le Fri, 05 Apr 2013 07:08:01 +0000, Emmanuel Florac a écrit :

Malheureusement je n'ai pas de WD 1 To 3,5'', donc je ne sais pas quelle
est leur taille.



Réponse du _technicien_ LDLC :
"Le disque que vous avez actuellement est un disque dur d'1 To.
La capacité sera donc bien identique avec le disque qui vous a été
précédemment conseillé.
Vous pouvez donc en faire l'acquisition sereinement pour votre RAID."

J'adore être pris pour un con de la sorte. Comme si je ne savais pas que
mon disque fait 1To, alors que je le lui répète à chaque message.
Je pense que sa définition du mot "identique" n'est pas la même que la
mienne.
Je l'ai relancé, en lui disant, pas très gentiment, ce que je pensais de
sa réponse. Evidemment, j'ai encore perdu 24h à cause du décalage horaire.
Avatar
Christophe PEREZ
Le Fri, 05 Apr 2013 07:08:01 +0000, Emmanuel Florac a écrit :

Malheureusement je n'ai pas de WD 1 To 3,5'', donc je ne sais pas quelle
est leur taille.



Si je me base sur http://www.wdc.com/wdproducts/library/SpecSheet/
ENG/2879-771436.pdf, la caractéristique "User sector per drive" est à
1953525169 pour les 1 To, alors qu'elle est à 1953525168 pour mon
Barracuda actuel.
Donc, normalement, c'est bon non ?
Avatar
Christophe PEREZ
Le Fri, 05 Apr 2013 14:18:36 +0000, Christophe PEREZ a écrit :

Donc, normalement, c'est bon non ?



Bon, j'ai reçu et installé mon disque. Je m'apprête à reconstruire le
raid (jamais fait ça), et je commence par un :
sfdisk -d /dev/sda | sfdisk /dev/sdb
Et derrière :
# fdisk -l /dev/sdb

Disque /dev/sdb : 1000.2 Go, 1000204886016 octets, 1953525168 secteurs
Unités = secteur de 1 × 512 = 512 octets
Taille de secteur (logique / physique) : 512 octets / 4096 octets
taille d'E/S (minimale / optimale) : 4096 octets / 4096 octets
Identifiant de disque : 0x00000000

Périphérique Amorce Début Fin Blocs Id Système
/dev/sdb1 * 63 48194 24066 fd RAID Linux
autodétecté
La partition 1 ne commence pas sur une frontière de cylindre physique.
/dev/sdb2 48195 40050044 20000925 fd RAID Linux
autodétecté
La partition 2 ne commence pas sur une frontière de cylindre physique.
/dev/sdb3 40050045 44050229 2000092+ fd RAID Linux
autodétecté
La partition 3 ne commence pas sur une frontière de cylindre physique.
/dev/sdb4 44050230 1953520064 954734917+ 5 Étendue
La partition 4 ne commence pas sur une frontière de cylindre physique.
/dev/sdb5 44050293 50042474 2996091 fd RAID Linux
autodétecté
La partition 5 ne commence pas sur une frontière de cylindre physique.
/dev/sdb6 50042538 110045249 30001356 fd RAID Linux
autodétecté
La partition 6 ne commence pas sur une frontière de cylindre physique.
/dev/sdb7 110045313 230050799 60002743+ fd RAID Linux
autodétecté
La partition 7 ne commence pas sur une frontière de cylindre physique.
/dev/sdb8 230050863 1953520064 861734601 fd RAID Linux
autodétecté
La partition 8 ne commence pas sur une frontière de cylindre physique.

Je vais voir sur le net à quoi correspond ce message d'erreur, mais en
attendant, je pose la question ici, je fais quoi ?
Je continue en passant outre ? Ou je dois partitionner différemment ? Et
dans ce cas, comment je dois m'y prendre pour avoir exactement le même
partitionnement que sur le sda ?
Avatar
Christophe PEREZ
Le Thu, 11 Apr 2013 14:50:12 +0000, Christophe PEREZ a écrit :

Je continue en passant outre ?



En l'absence de réponse, et ne trouvant rien de mieux (toutes mes
tentatives de partitionnement, quelque soit l'outil, donnent le même
résultat), c'est ce que j'ai fait, j'ai lancé la reconstruction du raid
comme ça.
Mais je suis un peu dépité parce qu'autant j'avais anticipé la question
de la taille réelle du disque, autant je n'avais pas du tout pensé à un
critère de géométrie (que je ne comprends toujours pas d'ailleurs).
Comme quoi, même en se renseignant avant on n'a aucune garantie d'avoir
tout imaginé.
Avatar
Emmanuel Florac
Le Fri, 12 Apr 2013 13:56:18 +0000, Christophe PEREZ a écrit:

Le Thu, 11 Apr 2013 14:50:12 +0000, Christophe PEREZ a écrit :

Je continue en passant outre ?



En l'absence de réponse, et ne trouvant rien de mieux (toutes mes
tentatives de partitionnement, quelque soit l'outil, donnent le même
résultat), c'est ce que j'ai fait, j'ai lancé la reconstruction du raid
comme ça.
Mais je suis un peu dépité parce qu'autant j'avais anticipé la question
de la taille réelle du disque, autant je n'avais pas du tout pensé à un
critère de géométrie (que je ne comprends toujours pas d'ailleurs).
Comme quoi, même en se renseignant avant on n'a aucune garantie d'avoir
tout imaginé.



Je suppose que ton nouveau disque est en "extended mode" (avec des blocs
de 4 Ko) alors que l'ancien avait des blocs de 512 octets. Si les
partitions de l'ancien ne correspondent pas, il n'y a rien que tu puisse
faire, sauf repartitionner les deux disques...

--
If atheism is a religion, then baldness is a hair color.
And not collecting stamps is a hobby.
mahade on reddit.com
Avatar
Christophe PEREZ
Le Sat, 13 Apr 2013 10:49:54 +0000, Emmanuel Florac a écrit :

Je suppose que ton nouveau disque est en "extended mode" (avec des blocs
de 4 Ko) alors que l'ancien avait des blocs de 512 octets. Si les
partitions de l'ancien ne correspondent pas, il n'y a rien que tu puisse
faire, sauf repartitionner les deux disques...



Qu'est-ce que je risque dans le cas actuel (reproduction du
partitionnement à l'identique, sans tenir compte du message de fdisk) ?
Sachant que la reconstruction du raid vient juste de se terminer (2
jours).
Et pour refaire le partitionnement des 2 disques, il m'en faudrait un
3ème de même capacité, et un arrêt du serveur très long. Difficile à
envisager, sauf si une solution simple m'échappe.
Avatar
Emmanuel Florac
Le Sun, 14 Apr 2013 02:51:30 +0000, Christophe PEREZ a écrit:


Qu'est-ce que je risque dans le cas actuel (reproduction du
partitionnement à l'identique, sans tenir compte du message de fdisk) ?
Sachant que la reconstruction du raid vient juste de se terminer (2
jours).



La performance sera amoindrie, peut-être sensiblement.

--
I have not failed. I've just found 10,000 ways that won't work.
Thomas A. Edison
Avatar
Christophe PEREZ
Le Sun, 14 Apr 2013 10:00:55 +0200, Pascal Hambourg a écrit :

Une dégradatation significative des performances



Merci pour vos réponses à tous les deux.
Je me retrouve bien embarrassé moi maintenant...
Avatar
Christophe PEREZ
Le Mon, 15 Apr 2013 11:34:08 +0200, Pascal Hambourg a écrit :

Ce qu'il aurait fallu faire, au lieu de réinjecter directement la sortie
de sfdisk du premier disque vers le second, c'est de modifier les
offsets des partitions pour qu'ils soient des multiples de 8 secteurs,
sans modifier leurs tailles (en s'assurant que les partitions ne se
recouvrent pas).



J'ai essayé (si je comprends bien ce que tu veux dire) genre :
la partition 1 de sda fait X blocks, je commence en 2048 sur le sdb comme
réclamé par l'outil de partitionnement, et je lui donne X blocks. Ça me
semblait logique, mais, je me suis rendu compte que le début conseillé
pour la 2ème partition ne se "collait" pas à la fin de la première. Du
coup, je me serais retrouvé avec plein de petits trous entre les
partitions, et donc plus avec la taille suffisante pour la dernière
partition, pour remettre mon raid en place.

Sinon, LDLC m'informe (après multiples échanges de courrier) d'une
solution qui me parait miraculeuse :
"Enfin, les disques Western Digital de ce type peuvent être forcé en mode
512 octets simplement en plaçant un cavalier sur les connecteurs à
l'arrière du disque, en suivant le schéma suivant:"

Je me suis donc précipité sur cette solution, j'ai mis en place le
cavalier, et rien n'a changé au reboot. Mais je me dis que probablement
faut-il repartitionner le disque ? Mais là il me faut une certitude avant
de le faire, pas envie de me retaper 48h de reconstruction de raid pour
rien.
J'attends votre avis avec impatience ;)
1 2 3