Soit un serveur sous Debian Lenny avec une carte 3ware 9650-16SE et 12
disques en RAID6 avec des stripes de 256k.
le volume RAID6 contient en autre un gros volume LVM de 5T, formaté en
XFS.
Ce volume me fait des misères depuis vendredi dernier, avec ceci dans les
logs :
[18280.085219] xfs_imap_to_bp: xfs_trans_read_buf()returned an error 5 on
dm-2. Returning error.
[18280.085219] xfs_imap_to_bp: xfs_trans_read_buf()returned an error 5 on
dm-2. Returning error.
[18280.085254] xfs_imap_to_bp: xfs_trans_read_buf()returned an error 5 on
dm-2. Returning error.
[18280.085254] xfs_imap_to_bp: xfs_trans_read_buf()returned an error 5 on
dm-2. Returning error.
Je démonte alors tous lees volumes formatés en XFS, je décharge le module
xfs, j'ai ça dans les logs :
Je recharge le module XFS, et remonte le volume qui fait péter xfs
(toujours le même). Il monte des fois sans problème (avec récupération du
log) et fois, je suis obligé de faire un cfs_repair -L
Je redémonte le volume, je (re)lance un xfs_repair sur mon volume foireux,
et ça repart pour un moment... puis rebelotte ! xfs repart en vrille !
Je ne sais plus quoi faire pour réparer définitivement ce FS, étant
entendu qu'il m'est impossible de backuper les 5TB de données stockées
sur ce volume, et que bien entendu ces données sont critiques...
quelques détails :
- Debian Lenny amd64, avec un noyau standard (2.6.26)
- 3dm et 3ware CLI 10.2, dernier firmware à jour
Le Mon, 27 Jun 2011 21:39:33 +0000, Eric Belhomme a écrit:
quelques détails : - Debian Lenny amd64, avec un noyau standard (2.6.26) - 3dm et 3ware CLI 10.2, dernier firmware à jour
Voila, des idées ?
Est-ce que le message lors du dump dans dmesg contient un "xfs force shutdown"?
Qu'est ce que c'est comme disques durs? que donne
"tw_cli show alarms" "tw_cli /cXX/uYY show all"
Et aussi un "zgrep 3w-9 /var/log/dmesg*" ?
À mon avis le problème n'est pas dans xfs; il semble y avoir des IO errors. Je dirais que soit le noyau est moisi (possible), soit il y a un problème avec le RAID.
-- Don't worry about people stealing your ideas. If it's original, you'll have to ram it down their throats. Howard Aiken, creator of the IBM/Harvard Mark 1 Computer
Le Mon, 27 Jun 2011 21:39:33 +0000, Eric Belhomme a écrit:
quelques détails :
- Debian Lenny amd64, avec un noyau standard (2.6.26) - 3dm et 3ware CLI
10.2, dernier firmware à jour
Voila, des idées ?
Est-ce que le message lors du dump dans dmesg contient un "xfs force
shutdown"?
Qu'est ce que c'est comme disques durs? que donne
"tw_cli show alarms"
"tw_cli /cXX/uYY show all"
Et aussi un "zgrep 3w-9 /var/log/dmesg*" ?
À mon avis le problème n'est pas dans xfs; il semble y avoir des IO
errors. Je dirais que soit le noyau est moisi (possible), soit il y a un
problème avec le RAID.
--
Don't worry about people stealing your ideas. If it's original, you'll
have to ram it down their throats.
Howard Aiken, creator of the IBM/Harvard Mark 1 Computer
Le Mon, 27 Jun 2011 21:39:33 +0000, Eric Belhomme a écrit:
quelques détails : - Debian Lenny amd64, avec un noyau standard (2.6.26) - 3dm et 3ware CLI 10.2, dernier firmware à jour
Voila, des idées ?
Est-ce que le message lors du dump dans dmesg contient un "xfs force shutdown"?
Qu'est ce que c'est comme disques durs? que donne
"tw_cli show alarms" "tw_cli /cXX/uYY show all"
Et aussi un "zgrep 3w-9 /var/log/dmesg*" ?
À mon avis le problème n'est pas dans xfs; il semble y avoir des IO errors. Je dirais que soit le noyau est moisi (possible), soit il y a un problème avec le RAID.
-- Don't worry about people stealing your ideas. If it's original, you'll have to ram it down their throats. Howard Aiken, creator of the IBM/Harvard Mark 1 Computer
Eric Belhomme
Le Tue, 28 Jun 2011 08:28:50 +0000, Emmanuel Florac a écrit :
Est-ce que le message lors du dump dans dmesg contient un "xfs force shutdown"?
non
Qu'est ce que c'est comme disques durs? que donne
"tw_cli show alarms" "tw_cli /cXX/uYY show all"
//dove> show alarms
Ctl Date Severity AEN Message ------------------------------------------------------------------------------ c0 [Tue Jun 28 2011 08:06:42] INFO Battery capacity test is overdue
//dove> /c0/u0 show all /c0/u0 status = OK /c0/u0 is not rebuilding, its current state is OK /c0/u0 is not verifying, its current state is OK /c0/u0 is initialized. /c0/u0 Write Cache = off /c0/u0 Read Cache = Intelligent /c0/u0 volume(s) = 1 /c0/u0 name = 3WARE /c0/u0 serial number = MS2PRUGY000087004A99 /c0/u0 Ignore ECC policy = off /c0/u0 Auto Verify Policy = on /c0/u0 Storsave Policy = protection /c0/u0 Command Queuing Policy = on /c0/u0 Rapid RAID Recovery setting = all /c0/u0 Parity Number = 2
Unit UnitType Status %RCmpl %V/I/M Port Stripe Size(GB) ------------------------------------------------------------------------ u0 RAID-6 OK - - - 256K 9313.12 u0-0 DISK OK - - p0 - 931.312 u0-1 DISK OK - - p1 - 931.312 u0-2 DISK OK - - p2 - 931.312 u0-3 DISK OK - - p3 - 931.312 u0-4 DISK OK - - p4 - 931.312 u0-5 DISK OK - - p5 - 931.312 u0-6 DISK OK - - p6 - 931.312 u0-7 DISK OK - - p7 - 931.312 u0-8 DISK OK - - p8 - 931.312 u0-9 DISK OK - - p9 - 931.312 u0-10 DISK OK - - p10 - 931.312 u0-11 DISK OK - - p11 - 931.312 u0/v0 Volume - - - - - 9313.12
J'ai donc désactivé le cache pour voir si ça venait de ça, il semble que non. J'ai donc mis à jour le firmware avec le dernier bêta, mais ça n'a pas résolu le pb Là je viens d'upgrader ma Lenny vers Squeeze, histoire d'avoir des outils xfs plus à jour, et j'ai recompilé un 2.6.39 vanilla pour bénéficier des nouveautées apportes récemment aux couches FS de linux (notamment sur xfs) J'ai pas encore testé pour voir si le problème persiste...
Et aussi un "zgrep 3w-9 /var/log/dmesg*" ?
Bah rien de spécial. Ah si : j'ai omi de préciser que j'ai perdu un disque sur volume, qui a donc dû être remplacé. Le volume a été reconstruit sans remonter de problème particulier.
À mon avis le problème n'est pas dans xfs; il semble y avoir des IO errors. Je dirais que soit le noyau est moisi (possible), soit il y a un problème avec le RAID.
Le truc rigolo (mais qui ne me fait pas rire) c'est que j'ai fait un seul gros volume RAID de 9T que j'utilise ensuite avec LVM. J'ai plusieurs LVs, certains en ext3, et d'autres en xfs, et je n'ai de problème QUE sur un seul LV en particulier (en l'occurence formatté en xfs)
Pour info j'ai utilisé ces paramètres pour formater le volume :
-- Rico Rien ne m'est sûr que la chose incertaine. -+- François Villon (1431-1463?), Ballade du concours de Blois (vers 9) -+-
Le Tue, 28 Jun 2011 08:28:50 +0000, Emmanuel Florac a écrit :
Est-ce que le message lors du dump dans dmesg contient un "xfs force
shutdown"?
non
Qu'est ce que c'est comme disques durs? que donne
"tw_cli show alarms"
"tw_cli /cXX/uYY show all"
//dove> show alarms
Ctl Date Severity AEN Message
------------------------------------------------------------------------------
c0 [Tue Jun 28 2011 08:06:42] INFO Battery capacity test is
overdue
//dove> /c0/u0 show all
/c0/u0 status = OK
/c0/u0 is not rebuilding, its current state is OK
/c0/u0 is not verifying, its current state is OK
/c0/u0 is initialized.
/c0/u0 Write Cache = off
/c0/u0 Read Cache = Intelligent
/c0/u0 volume(s) = 1
/c0/u0 name = 3WARE
/c0/u0 serial number = MS2PRUGY000087004A99
/c0/u0 Ignore ECC policy = off
/c0/u0 Auto Verify Policy = on
/c0/u0 Storsave Policy = protection
/c0/u0 Command Queuing Policy = on
/c0/u0 Rapid RAID Recovery setting = all
/c0/u0 Parity Number = 2
Unit UnitType Status %RCmpl %V/I/M Port Stripe Size(GB)
------------------------------------------------------------------------
u0 RAID-6 OK - - - 256K 9313.12
u0-0 DISK OK - - p0 - 931.312
u0-1 DISK OK - - p1 - 931.312
u0-2 DISK OK - - p2 - 931.312
u0-3 DISK OK - - p3 - 931.312
u0-4 DISK OK - - p4 - 931.312
u0-5 DISK OK - - p5 - 931.312
u0-6 DISK OK - - p6 - 931.312
u0-7 DISK OK - - p7 - 931.312
u0-8 DISK OK - - p8 - 931.312
u0-9 DISK OK - - p9 - 931.312
u0-10 DISK OK - - p10 - 931.312
u0-11 DISK OK - - p11 - 931.312
u0/v0 Volume - - - - - 9313.12
J'ai donc désactivé le cache pour voir si ça venait de ça, il semble que
non.
J'ai donc mis à jour le firmware avec le dernier bêta, mais ça n'a pas
résolu le pb
Là je viens d'upgrader ma Lenny vers Squeeze, histoire d'avoir des outils
xfs plus à jour, et j'ai recompilé un 2.6.39 vanilla pour bénéficier des
nouveautées apportes récemment aux couches FS de linux (notamment sur xfs)
J'ai pas encore testé pour voir si le problème persiste...
Et aussi un "zgrep 3w-9 /var/log/dmesg*" ?
Bah rien de spécial. Ah si : j'ai omi de préciser que j'ai perdu un
disque sur volume, qui a donc dû être remplacé. Le volume a été
reconstruit sans remonter de problème particulier.
À mon avis le problème n'est pas dans xfs; il semble y avoir des IO
errors. Je dirais que soit le noyau est moisi (possible), soit il y a un
problème avec le RAID.
Le truc rigolo (mais qui ne me fait pas rire) c'est que j'ai fait un seul
gros volume RAID de 9T que j'utilise ensuite avec LVM. J'ai plusieurs LVs,
certains en ext3, et d'autres en xfs, et je n'ai de problème QUE sur un
seul LV en particulier (en l'occurence formatté en xfs)
Pour info j'ai utilisé ces paramètres pour formater le volume :
Le Tue, 28 Jun 2011 08:28:50 +0000, Emmanuel Florac a écrit :
Est-ce que le message lors du dump dans dmesg contient un "xfs force shutdown"?
non
Qu'est ce que c'est comme disques durs? que donne
"tw_cli show alarms" "tw_cli /cXX/uYY show all"
//dove> show alarms
Ctl Date Severity AEN Message ------------------------------------------------------------------------------ c0 [Tue Jun 28 2011 08:06:42] INFO Battery capacity test is overdue
//dove> /c0/u0 show all /c0/u0 status = OK /c0/u0 is not rebuilding, its current state is OK /c0/u0 is not verifying, its current state is OK /c0/u0 is initialized. /c0/u0 Write Cache = off /c0/u0 Read Cache = Intelligent /c0/u0 volume(s) = 1 /c0/u0 name = 3WARE /c0/u0 serial number = MS2PRUGY000087004A99 /c0/u0 Ignore ECC policy = off /c0/u0 Auto Verify Policy = on /c0/u0 Storsave Policy = protection /c0/u0 Command Queuing Policy = on /c0/u0 Rapid RAID Recovery setting = all /c0/u0 Parity Number = 2
Unit UnitType Status %RCmpl %V/I/M Port Stripe Size(GB) ------------------------------------------------------------------------ u0 RAID-6 OK - - - 256K 9313.12 u0-0 DISK OK - - p0 - 931.312 u0-1 DISK OK - - p1 - 931.312 u0-2 DISK OK - - p2 - 931.312 u0-3 DISK OK - - p3 - 931.312 u0-4 DISK OK - - p4 - 931.312 u0-5 DISK OK - - p5 - 931.312 u0-6 DISK OK - - p6 - 931.312 u0-7 DISK OK - - p7 - 931.312 u0-8 DISK OK - - p8 - 931.312 u0-9 DISK OK - - p9 - 931.312 u0-10 DISK OK - - p10 - 931.312 u0-11 DISK OK - - p11 - 931.312 u0/v0 Volume - - - - - 9313.12
J'ai donc désactivé le cache pour voir si ça venait de ça, il semble que non. J'ai donc mis à jour le firmware avec le dernier bêta, mais ça n'a pas résolu le pb Là je viens d'upgrader ma Lenny vers Squeeze, histoire d'avoir des outils xfs plus à jour, et j'ai recompilé un 2.6.39 vanilla pour bénéficier des nouveautées apportes récemment aux couches FS de linux (notamment sur xfs) J'ai pas encore testé pour voir si le problème persiste...
Et aussi un "zgrep 3w-9 /var/log/dmesg*" ?
Bah rien de spécial. Ah si : j'ai omi de préciser que j'ai perdu un disque sur volume, qui a donc dû être remplacé. Le volume a été reconstruit sans remonter de problème particulier.
À mon avis le problème n'est pas dans xfs; il semble y avoir des IO errors. Je dirais que soit le noyau est moisi (possible), soit il y a un problème avec le RAID.
Le truc rigolo (mais qui ne me fait pas rire) c'est que j'ai fait un seul gros volume RAID de 9T que j'utilise ensuite avec LVM. J'ai plusieurs LVs, certains en ext3, et d'autres en xfs, et je n'ai de problème QUE sur un seul LV en particulier (en l'occurence formatté en xfs)
Pour info j'ai utilisé ces paramètres pour formater le volume :
-- Rico Rien ne m'est sûr que la chose incertaine. -+- François Villon (1431-1463?), Ballade du concours de Blois (vers 9) -+-
Eric Belhomme
Le Tue, 28 Jun 2011 08:28:50 +0000, Emmanuel Florac a écrit :
À mon avis le problème n'est pas dans xfs; il semble y avoir des IO errors. Je dirais que soit le noyau est moisi (possible), soit il y a un problème avec le RAID.
Et dans le dmesg, je constate que la machine est tombé à cours de mémoire, et a donc courageusement suicidé xfs_db
-- Rico Ce qui se conçoit bien, s'énonce clairement. -+- Nicolas Boileau -+-
Le Tue, 28 Jun 2011 08:28:50 +0000, Emmanuel Florac a écrit :
À mon avis le problème n'est pas dans xfs; il semble y avoir des IO
errors. Je dirais que soit le noyau est moisi (possible), soit il y a un
problème avec le RAID.
Le Tue, 28 Jun 2011 08:28:50 +0000, Emmanuel Florac a écrit :
À mon avis le problème n'est pas dans xfs; il semble y avoir des IO errors. Je dirais que soit le noyau est moisi (possible), soit il y a un problème avec le RAID.
Le Tue, 28 Jun 2011 10:21:31 +0000, Emmanuel Florac a écrit :
Ouhla la, très mauvais... Le contrôleur débloque. Est-ce que ce sont des disques Western Digital par hasard?
non, ce sont des Hitachi HDE721010SLA330 (fw ST6OA3AA) Je fais quoi ? je remplace le contrôleur ? avec le BBU ?
-- Rico La raison du plumard est toujours la meilleure ! -+- Coluche -+-
Eric Belhomme
Le Tue, 28 Jun 2011 10:57:19 +0000, Eric Belhomme a écrit :
je remplace le contrôleur ? avec le BBU ?
Juste pour être sur : Si je remplace le contrôleur 3ware, au redémarrage du serveur, la nouvelle carte 3ware détectera le volume RAID construit avec l'ancien et mettra à jour sa config interne en fonction des infos contenues sur les disques. Donc je ne perds rien. J'ai bien bon là ?
-- Rico Croire en Dieu équivaut à se tuer. La foi n'est qu'un mode de suicide. -+- Louis Scutenaire -+-
Le Tue, 28 Jun 2011 10:57:19 +0000, Eric Belhomme a écrit :
je remplace le contrôleur ? avec le BBU ?
Juste pour être sur : Si je remplace le contrôleur 3ware, au redémarrage
du serveur, la nouvelle carte 3ware détectera le volume RAID construit
avec l'ancien et mettra à jour sa config interne en fonction des infos
contenues sur les disques. Donc je ne perds rien. J'ai bien bon là ?
--
Rico
Croire en Dieu équivaut à se tuer. La foi n'est qu'un mode de suicide.
-+- Louis Scutenaire -+-
Le Tue, 28 Jun 2011 10:57:19 +0000, Eric Belhomme a écrit :
je remplace le contrôleur ? avec le BBU ?
Juste pour être sur : Si je remplace le contrôleur 3ware, au redémarrage du serveur, la nouvelle carte 3ware détectera le volume RAID construit avec l'ancien et mettra à jour sa config interne en fonction des infos contenues sur les disques. Donc je ne perds rien. J'ai bien bon là ?
-- Rico Croire en Dieu équivaut à se tuer. La foi n'est qu'un mode de suicide. -+- Louis Scutenaire -+-
Emmanuel Florac
Le Tue, 28 Jun 2011 11:02:27 +0000, Eric Belhomme a écrit:
Juste pour être sur : Si je remplace le contrôleur 3ware, au redémarrage du serveur, la nouvelle carte 3ware détectera le volume RAID construit avec l'ancien et mettra à jour sa config interne en fonction des infos contenues sur les disques. Donc je ne perds rien. J'ai bien bon là ?
Absolument, c'est plug and play. Tu as le même contrôleur en stock? Il est encore sous garantie? Au cas où si tu as besoin je peux te prêter la même pareille le temps de la RMA par exemple.
-- Toutes les organisations ont leur règles, et les Femmes Algériennes doivent avoir aussi leurs règles. Kaid Ahmed.
Le Tue, 28 Jun 2011 11:02:27 +0000, Eric Belhomme a écrit:
Juste pour être sur : Si je remplace le contrôleur 3ware, au redémarrage
du serveur, la nouvelle carte 3ware détectera le volume RAID construit
avec l'ancien et mettra à jour sa config interne en fonction des infos
contenues sur les disques. Donc je ne perds rien. J'ai bien bon là ?
Absolument, c'est plug and play. Tu as le même contrôleur en stock? Il
est encore sous garantie? Au cas où si tu as besoin je peux te prêter la
même pareille le temps de la RMA par exemple.
--
Toutes les organisations ont leur règles, et les Femmes Algériennes
doivent avoir aussi leurs règles.
Kaid Ahmed.
Le Tue, 28 Jun 2011 11:02:27 +0000, Eric Belhomme a écrit:
Juste pour être sur : Si je remplace le contrôleur 3ware, au redémarrage du serveur, la nouvelle carte 3ware détectera le volume RAID construit avec l'ancien et mettra à jour sa config interne en fonction des infos contenues sur les disques. Donc je ne perds rien. J'ai bien bon là ?
Absolument, c'est plug and play. Tu as le même contrôleur en stock? Il est encore sous garantie? Au cas où si tu as besoin je peux te prêter la même pareille le temps de la RMA par exemple.
-- Toutes les organisations ont leur règles, et les Femmes Algériennes doivent avoir aussi leurs règles. Kaid Ahmed.
Eric Belhomme
Le Tue, 28 Jun 2011 11:08:09 +0000, Emmanuel Florac a écrit :
Le Tue, 28 Jun 2011 11:02:27 +0000, Eric Belhomme a écrit:
Juste pour être sur : Si je remplace le contrôleur 3ware, au redémarrage du serveur, la nouvelle carte 3ware détectera le volume RAID construit avec l'ancien et mettra à jour sa config interne en fonction des infos contenues sur les disques. Donc je ne perds rien. J'ai bien bon là ?
Absolument, c'est plug and play. Tu as le même contrôleur en stock? Il est encore sous garantie? Au cas où si tu as besoin je peux te prêter la même pareille le temps de la RMA par exemple.
Sympa mais la machine est en Californie ;) Dès que le jour se lève là-bas, j'appelle mon fournisseur pour qu'il me file une autre carte en urgence, quitte à la payer. Je verrai pour la RMA par la suite. D'ailleurs ce sera pas une mauvaise chose d'avoir une carte en spare, dans la mesure où j'ai plusieurs systèmes avec des 9650-16ML...
En attendant, si je mets le volume en RO, ça pourrait tenir ?
-- Rico Lorsque vous faites une remarque stupide, sa stupidité sera évidente, y compris pour vous-même. -+- George Orwell -+-
Le Tue, 28 Jun 2011 11:08:09 +0000, Emmanuel Florac a écrit :
Le Tue, 28 Jun 2011 11:02:27 +0000, Eric Belhomme a écrit:
Juste pour être sur : Si je remplace le contrôleur 3ware, au
redémarrage du serveur, la nouvelle carte 3ware détectera le volume
RAID construit avec l'ancien et mettra à jour sa config interne en
fonction des infos contenues sur les disques. Donc je ne perds rien.
J'ai bien bon là ?
Absolument, c'est plug and play. Tu as le même contrôleur en stock? Il
est encore sous garantie? Au cas où si tu as besoin je peux te prêter la
même pareille le temps de la RMA par exemple.
Sympa mais la machine est en Californie ;)
Dès que le jour se lève là-bas, j'appelle mon fournisseur pour qu'il me
file une autre carte en urgence, quitte à la payer. Je verrai pour la RMA
par la suite.
D'ailleurs ce sera pas une mauvaise chose d'avoir une carte en spare,
dans la mesure où j'ai plusieurs systèmes avec des 9650-16ML...
En attendant, si je mets le volume en RO, ça pourrait tenir ?
--
Rico
Lorsque vous faites une remarque stupide, sa stupidité sera évidente, y
compris pour vous-même.
-+- George Orwell -+-
Le Tue, 28 Jun 2011 11:08:09 +0000, Emmanuel Florac a écrit :
Le Tue, 28 Jun 2011 11:02:27 +0000, Eric Belhomme a écrit:
Juste pour être sur : Si je remplace le contrôleur 3ware, au redémarrage du serveur, la nouvelle carte 3ware détectera le volume RAID construit avec l'ancien et mettra à jour sa config interne en fonction des infos contenues sur les disques. Donc je ne perds rien. J'ai bien bon là ?
Absolument, c'est plug and play. Tu as le même contrôleur en stock? Il est encore sous garantie? Au cas où si tu as besoin je peux te prêter la même pareille le temps de la RMA par exemple.
Sympa mais la machine est en Californie ;) Dès que le jour se lève là-bas, j'appelle mon fournisseur pour qu'il me file une autre carte en urgence, quitte à la payer. Je verrai pour la RMA par la suite. D'ailleurs ce sera pas une mauvaise chose d'avoir une carte en spare, dans la mesure où j'ai plusieurs systèmes avec des 9650-16ML...
En attendant, si je mets le volume en RO, ça pourrait tenir ?
-- Rico Lorsque vous faites une remarque stupide, sa stupidité sera évidente, y compris pour vous-même. -+- George Orwell -+-
Emmanuel Florac
Le Tue, 28 Jun 2011 11:43:51 +0000, Eric Belhomme a écrit:
En attendant, si je mets le volume en RO, ça pourrait tenir ?
Sûrement; les "ECC errors" sont juste la marque que la cache de la carte doit être endommagé.
-- Software is like sex: It's better when it's free. Linus Torvalds
Le Tue, 28 Jun 2011 11:43:51 +0000, Eric Belhomme a écrit:
En attendant, si je mets le volume en RO, ça pourrait tenir ?
Sûrement; les "ECC errors" sont juste la marque que la cache de la carte
doit être endommagé.
--
Software is like sex: It's better when it's free.
Linus Torvalds