Disque Fujitsu en Raid6... Chose bizarre...

Le
JKB
Bonjour à tous,

J'ai chez moi un serveur accollé à une baie de disques.
Configuration :

Sun Blade 2000 (deux UIII/900) ;
2 disques FCAL en raid 1 soft pour l'OS ;
7 disques SCA-II (U320) sur une Adaptec 29160 (PCI-X/66) ;
OS : Linux Debian Sparc64 (2.6.32.10)

Ce matin (pourquoi est-ce que ça arrive toujours le dimanche matin,
ces trucs-là ?!), je reçois un mail de mdadm me disant que /dev/sdh1
est allé aux fraises et qu'il me souhaite une bonne journée.
/dev/sdh1 est un disque du volume raid6.

Je regarde les indications smart, rien à signaler.
Je tente de reconstruire le raid, procédure échouant avant la fin.
Je tente un badlocks -wv /dev/sdh1 qui me plante la machine avec au
passage un reboot au bouton, même stop+a ne fonctionnait plus.

Je reboote la machine et lance un test complet du disque en question
qui ne renvoie _aucune_ erreur :

SMART Self-test log
Num Test Status segment LifeTime LBA_first_err [SK ASC ASQ]
Description number (hours)
# 1 long Completed - 29193 - [- - -]

Long (extended) Self Test duration: 1919 seconds [32.0 minutes]

Je tente une reconstruction du raid qui passe sans problème :

Root rayleigh:[~] > cat /proc/mdstat
Personalities : [raid1] [raid6] [raid5] [raid4]
md7 : active raid6 sdh1[5] sdc1[0] sdi1[6] sdg1[4] sdf1[3] sde1[2] sdd1[1]
359011840 blocks level 6, 64k chunk, algorithm 2 [7/7] [UUUUUUU]

smartctl me renvoie :

smartctl 5.40 2010-03-16 r3077 [sparc-unknown-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen,
http://smartmontools.sourceforge.net

Device: FUJITSU MAW3073NC Version: 0104
Serial number: DAL0P6702C13
Device type: disk
Transport protocol: Parallel SCSI (SPI-4)
Local Time is: Sun Apr 18 17:25:08 2010 CEST
Device supports SMART and is Enabled
Temperature Warning Enabled
SMART Health Status: OK

Current Drive Temperature: 32 C
Drive Trip Temperature: 65 C
Manufactured in week 29 of year 2006
Specified cycle count over device lifetime: 10000
Accumulated start-stop cycles: 23
Elements in grown defect list: 0

Error counter log:
Errors Corrected by Total Correction Gigabytes Total
ECC rereads/ errors algorithm processed uncorrected
fast | delayed rewrites corrected invocations [10^9 bytes] errors
read: 0 0 0 0 0 11840.127 0
write: 0 0 0 0 0 918.810 0

Non-medium error count: 196

Le disque semble donc en bonne santé. En tout cas, les indications
sont très voisines de celles données par les autres disques du
volume.

Ce qui m'inquiète assez, c'est le fait de retrouver un disque
utilisable après l'avoir éteint _électriquement_. J'ai déjà eu des
tas de disques en panne, mais je n'ai encore jamais eu de disque
avec de pareils symptome.

Des expériences ?

Cordialement,

JKB

--
Le cerveau, c'est un véritable scandale écologique. Il représente 2% de notre
masse corporelle, mais disperse à lui seul 25% de l'énergie que nous
consommons tous les jours.
Vidéos High-Tech et Jeu Vidéo
Téléchargements
Vos réponses Page 1 / 2
Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
Olivier B.
Le #21586201
On Sun, 18 Apr 2010 15:32:45 +0000 (UTC), JKB

Ce qui m'inquiète assez, c'est le fait de retrouver un disque
utilisable après l'avoir éteint _électriquement_. J'ai déjà eu des
tas de disques en panne, mais je n'ai encore jamais eu de disque
avec de pareils symptome.

Des expériences ?



oui, identique, je ne réintègre plus un dique meme s'il fonctionne
apres un arrêt electrique, garantie ou poubelle.

--
pas de turlututu. apres l'@robase
JKB
Le #21586181
Le 18-04-2010, ? propos de
Re: Disque Fujitsu en Raid6... Chose bizarre...,
Olivier B ?crivait dans fr.comp.stockage :
On Sun, 18 Apr 2010 15:32:45 +0000 (UTC), JKB

Ce qui m'inquiète assez, c'est le fait de retrouver un disque
utilisable après l'avoir éteint _électriquement_. J'ai déjà eu des
tas de disques en panne, mais je n'ai encore jamais eu de disque
avec de pareils symptome.

Des expériences ?



oui, identique, je ne réintègre plus un dique meme s'il fonctionne
apres un arrêt electrique, garantie ou poubelle.



Bon, alors poubelle...

JKB

--
Le cerveau, c'est un véritable scandale écologique. Il représente 2% de notre
masse corporelle, mais disperse à lui seul 25% de l'énergie que nous
consommons tous les jours.
Emmanuel Florac
Le #21587511
Le Sun, 18 Apr 2010 15:32:45 +0000, JKB a écrit:


Ce qui m'inquiète assez, c'est le fait de retrouver un disque
utilisable après l'avoir éteint _électriquement_. J'ai déjà eu des tas
de disques en panne, mais je n'ai encore jamais eu de disque avec de
pareils symptome.

Des expériences ?



En fait c'est parfaitement normal. La plupart des erreurs disques étant
transitoires, elles passent avec un reset "hard". C'est pourquoi il y a
maintenant une boîte (spinoff de sagate) dont le nom m'échappe qui cend
des baies RAID scellées : on ne peut pas changer les disques, parce que
le contrôleur sait resetter un disque, le reformater d'usine, etc. et
peut donc corriger 90% des pannes.

Pour ma part, sur les disques SATA je dirais qu'en dehors des "Smart
tripped", 80 à 90 % repartent effectivement après soit un reset, soit un
formatage avec l'outil constructeur.

--
The bearing of a child takes 9 months, no matter how many women are
assigned.
Fred Brooks
Ascadix
Le #21587741
Le 18/04/2010, JKB a supposé :
Bonjour à tous,

J'ai chez moi un serveur accollé à une baie de disques.
Configuration :



[snip... les listing ]


Le disque semble donc en bonne santé. En tout cas, les indications
sont très voisines de celles données par les autres disques du
volume.

Ce qui m'inquiète assez, c'est le fait de retrouver un disque
utilisable après l'avoir éteint _électriquement_. J'ai déjà eu des
tas de disques en panne, mais je n'ai encore jamais eu de disque
avec de pareils symptome.

Des expériences ?





Pas avec ta config exacte, mais des trucs qui ressemble, oui, déjà
plusieurs fois. ( souvent avec du matos HP vu que c'est avec ça que
bosse le +, avec différentes baies, SCSI, SAS, SATA ... )


- une partie, c'est le premier symptome d'un DD qui lache souvent peu
de temps aprés, parfois lors de l'arret/redémarage suivant

- une partie c'est pb coté backplane ( du genre, 2 DD qui pétent à pas
beaucoup d'interval dans le même slot de la baie ... mais tournent
impec au test dans une autre baie.)

- une partie c'est pb carte controleur SCSI ( + chiant, c'est encore
plus aléatoire et dur à localiser)

--
@+
Ascadix
adresse @mail valide, mais ajoutez "sesame" dans l'objet pour que ça
arrive.
JKB
Le #21589181
Le 18-04-2010, ? propos de
Re: Disque Fujitsu en Raid6... Chose bizarre...,
Ascadix ?crivait dans fr.comp.stockage :
Le 18/04/2010, JKB a supposé :
Bonjour à tous,

J'ai chez moi un serveur accollé à une baie de disques.
Configuration :



[snip... les listing ]


Le disque semble donc en bonne santé. En tout cas, les indications
sont très voisines de celles données par les autres disques du
volume.

Ce qui m'inquiète assez, c'est le fait de retrouver un disque
utilisable après l'avoir éteint _électriquement_. J'ai déjà eu des
tas de disques en panne, mais je n'ai encore jamais eu de disque
avec de pareils symptome.

Des expériences ?





Pas avec ta config exacte, mais des trucs qui ressemble, oui, déjà
plusieurs fois. ( souvent avec du matos HP vu que c'est avec ça que
bosse le +, avec différentes baies, SCSI, SAS, SATA ... )


- une partie, c'est le premier symptome d'un DD qui lache souvent peu
de temps aprés, parfois lors de l'arret/redémarage suivant



Ça, j'ai déjà eu, mais chez moi, c'était toujours un disque qui
devenait inaccessible soudainement, ce qui n'est pas le cas ici. Le
disque restait parfaitement adressable et répondait.

- une partie c'est pb coté backplane ( du genre, 2 DD qui pétent à pas
beaucoup d'interval dans le même slot de la baie ... mais tournent
impec au test dans une autre baie.)



Il faudrait que je teste ça...

- une partie c'est pb carte controleur SCSI ( + chiant, c'est encore
plus aléatoire et dur à localiser)



Là, on est sur une 29160 avec une baie externe. Je n'ai encore
jamais eu de problème avec ces cartes et j'espère bien que ça va
continuer ;-)

Cordialement,

JKB

--
Le cerveau, c'est un véritable scandale écologique. Il représente 2% de notre
masse corporelle, mais disperse à lui seul 25% de l'énergie que nous
consommons tous les jours.
Emmanuel Florac
Le #21593161
Le Mon, 19 Apr 2010 07:29:39 +0000, JKB a écrit:

Là, on est sur une 29160 avec une baie externe. Je n'ai encore jamais
eu de problème avec ces cartes et j'espère bien que ça va continuer ;-)




Heureusement ce n'est pas une 29320 :)

--
Je suis riche des biens dont je sais me passer.
Louis-Jean-Baptiste Etienne Vigée.
JKB
Le #21593291
Le 19-04-2010, ? propos de
Re: Disque Fujitsu en Raid6... Chose bizarre...,
Emmanuel Florac ?crivait dans fr.comp.stockage :
Le Mon, 19 Apr 2010 07:29:39 +0000, JKB a écrit:

Là, on est sur une 29160 avec une baie externe. Je n'ai encore jamais
eu de problème avec ces cartes et j'espère bien que ça va continuer ;-)




Heureusement ce n'est pas une 29320 :)



Pourquoi ? Je n'ai jamais eu de telles cartes, mais j'ai tout eu
entre la 1544 et la 29160 sans jamais avoir de problème...

JKB

--
Le cerveau, c'est un véritable scandale écologique. Il représente 2% de notre
masse corporelle, mais disperse à lui seul 25% de l'énergie que nous
consommons tous les jours.
Emmanuel Florac
Le #21595421
Le Mon, 19 Apr 2010 19:22:58 +0000, JKB a écrit:


Pourquoi ? Je n'ai jamais eu de telles cartes, mais j'ai tout eu entre
la 1544 et la 29160 sans jamais avoir de problème...



Oui mais la 29320 utilise un driver différent, buggé jusqu'à la moëlle.
J'ai essayé d'en utiliser deux ou trois fois ces saletés, et à chaque
fois j'ai fini par racheter une 29160 pour mettre à la place. Depuis
j'utilise toujours du SAS, parce que les 29160 ne sont plus fabriquées et
sont introuvables.

--
Ce qu'il y a d'enivrant dans le mauvais goût c'est le plaisir
aristocratique de déplaire.
C. Baudelaire.
JKB
Le #21595541
Le 20-04-2010, ? propos de
Re: Disque Fujitsu en Raid6... Chose bizarre...,
Emmanuel Florac ?crivait dans fr.comp.stockage :
Le Mon, 19 Apr 2010 19:22:58 +0000, JKB a écrit:


Pourquoi ? Je n'ai jamais eu de telles cartes, mais j'ai tout eu entre
la 1544 et la 29160 sans jamais avoir de problème...



Oui mais la 29320 utilise un driver différent, buggé jusqu'à la moëlle.
J'ai essayé d'en utiliser deux ou trois fois ces saletés, et à chaque
fois j'ai fini par racheter une 29160 pour mettre à la place. Depuis
j'utilise toujours du SAS, parce que les 29160 ne sont plus fabriquées et
sont introuvables.



J'ai acheté une 29160LP chez Bechtle récemment et elle est toujours
au catalogue. Les 29160 et 29160LP sont toujours au catalogue
d'Adaptec et je n'ai pas trouvé de mention "end of life".
Maintenant, que ces cartes soient difficiles à trouver, je n'en
disconviens pas.

JKB

--
Le cerveau, c'est un véritable scandale écologique. Il représente 2% de notre
masse corporelle, mais disperse à lui seul 25% de l'énergie que nous
consommons tous les jours.
Eric Belhomme
Le #21597601
Emmanuel Florac wrote:


Oui mais la 29320 utilise un driver différent, buggé jusqu'à la moëlle.
J'ai essayé d'en utiliser deux ou trois fois ces saletés, et à chaque
fois j'ai fini par racheter une 29160 pour mettre à la place. Depuis
j'utilise toujours du SAS, parce que les 29160 ne sont plus fabriquées et
sont introuvables.



j'en ai tout un stock et je sais pas quoi en faire...

--
Rico
Publicité
Poster une réponse
Anonyme