OVH Cloud OVH Cloud

SCSI Error sur un disque SAS d'un zpool en raidz2

11 réponses
Avatar
Francis Chartier
Bonjour

Soit un serveur sous freenas 9.10, dont un disque (/dev/da1 faisant
partie d'un zpool de 6 disques SAS en raidz2) a g=C3=A9n=C3=A9r=C3=A9 une e=
rreur
apparaissant dans un fragment de log re=C3=A7u par mail :

> (da1:mps0:0:1:0): READ(10). CDB: 28 00 1a e0 fe 6a 00 00 33 00=20
> (da1:mps0:0:1:0): CAM status: SCSI Status Error
> (da1:mps0:0:1:0): SCSI status: Check Condition
> (da1:mps0:0:1:0): SCSI sense: MEDIUM ERROR asc:16,0 (Data
> synchronization mark error) (da1:mps0:0:1:0): Info: 0x1ae0fe6a
> (da1:mps0:0:1:0): Field Replaceable Unit: 128
> (da1:mps0:0:1:0): Command Specific Info: 0x86011200
> (da1:mps0:0:1:0): Actual Retry Count: 255
> (da1:mps0:0:1:0): Descriptor 0x80: 00 00 00 00 00 00 00 00 00 00 00
> 00 00 00 (da1:mps0:0:1:0): Retrying command (per sense data)

C'est pour l'instant le seul morceau de log dont je dispose, tant que
je ne me serai pas rendu sur place afin de pouvoir diagnostiquer plus
pr=C3=A9cis=C3=A9ment.

A priori il s'agit de la premi=C3=A8re erreur de ce type rencontr=C3=A9e de=
puis
la mise en service du mat=C3=A9riel il y a =C3=A0 peu pr=C3=A8s 10 mois,
fonctionnement 24x7 sans soucis.
Les disques sont pilot=C3=A9s par le controleur SAS LSI2308
embarqu=C3=A9 sur une carte m=C3=A8re SUPERMICRO X10SL7-F, avec firmware mi=
s =C3=A0
jour.

D'apr=C3=A8s ce que j'ai lu sur les "SCSI sense keys" il s'agit a priori
d'une erreur de support qui pourrait =C3=AAtre corrig=C3=A9e par une r=C3=
=A9-allocation
du ou des blocs concern=C3=A9s.

D'apr=C3=A8s votre exp=C3=A9rience quel est le degr=C3=A9 d'urgence : c'est=
=C3=A0
consid=C3=A9rer habituellement comme signe avant coureur de la mort =C3=A0 =
court
ou moyen terme du disque (donc envisager le remplacement rapide), ou
simple incident de parcours =C3=A0 corriger et =C3=A0 surveiller.
Je sais qu'=C3=A9tant en raidz2 je n'ai entam=C3=A9 que la ceinture et pas =
les
bretelles, m=C3=A9bon : shit happens. :)

De toute fa=C3=A7on je vais aller sur place pour v=C3=A9rifier, mais je n'a=
i pas
rencontr=C3=A9 assez d'incidents de ce genre pour me faire une id=C3=A9e su=
r la
gravit=C3=A9 et l'urgence de la situation, en g=C3=A9n=C3=A9ral on m'appell=
e quand le
disque est mort et le serveur aux abonn=C3=A9s absents. :)

--=20
Francis Chartier
Bisounours Asocial #0

1 réponse

1 2
Avatar
Nicolas George
Eric Belhomme , dans le message
<595b88cd$0$15325$, a écrit :
Et quand on parle marketeux à un client, le franglais aussi, il est
« mandatory », et le mot « obligatoire » il est #verbotten# ?

Que celui qui n'est s'est jamais retrouvé avec un RAID cassé suite à la
défaillance en cascade de disques sur une grappe sans "hot-spare" (veux-
tu que je te traduise celui-ci aussi ?) me jette le premier disque dur...

Vlan.
Manifestement tu n'as rien compris à la critique contenue dans mon
message.
1 2