erreurs sur un systeme de fichiers XFS
Le
Eric Belhomme

Bonjour,
Soit un serveur sous Debian Lenny avec une carte 3ware 9650-16SE et 12
disques en RAID6 avec des stripes de 256k.
le volume RAID6 contient en autre un gros volume LVM de 5T, formaté en
XFS.
Ce volume me fait des misères depuis vendredi dernier, avec ceci dans les
logs :
[18280.085219] xfs_imap_to_bp: xfs_trans_read_buf()returned an error 5 on
dm-2. Returning error.
[18280.085219] xfs_imap_to_bp: xfs_trans_read_buf()returned an error 5 on
dm-2. Returning error.
[18280.085254] xfs_imap_to_bp: xfs_trans_read_buf()returned an error 5 on
dm-2. Returning error.
[18280.085254] xfs_imap_to_bp: xfs_trans_read_buf()returned an error 5 on
dm-2. Returning error.
Je démonte alors tous lees volumes formatés en XFS, je décharge le module
xfs, j'ai ça dans les logs :
[18796.865785] BUG: soft lockup - CPU#2 stuck for 481s! [swapper:0]
[18796.865785] Modules linked in: xfs nfsd auth_rpcgss exportfs nfs lockd
nfs_acl sunrpc ipv6 bonding loop usbhid pl2303 usbserial i2c_i801 snd_pcm
snd_timer snd soundcore pcspkr hid i2c_core snd_page_alloc ff_memless
button evdev ext3 jbd mbcache dm_mirror dm_log dm_snapshot dm_mod sd_mod
ehci_hcd uhci_hcd 3w_9xxx scsi_mod igb thermal processor fan thermal_sys
[last unloaded: xfs]
[18796.868415] CPU 2:
[18796.868415] Modules linked in: xfs nfsd auth_rpcgss exportfs nfs lockd
nfs_acl sunrpc ipv6 bonding loop usbhid pl2303 usbserial i2c_i801 snd_pcm
snd_timer snd soundcore pcspkr hid i2c_core snd_page_alloc ff_memless
button evdev ext3 jbd mbcache dm_mirror dm_log dm_snapshot dm_mod sd_mod
ehci_hcd uhci_hcd 3w_9xxx scsi_mod igb thermal processor fan thermal_sys
[last unloaded: xfs]
Avec un call trace du crash du module
Je recharge le module XFS, et remonte le volume qui fait péter xfs
(toujours le même). Il monte des fois sans problème (avec récupération du
log) et fois, je suis obligé de faire un cfs_repair -L
Je redémonte le volume, je (re)lance un xfs_repair sur mon volume foireux,
et ça repart pour un moment puis rebelotte ! xfs repart en vrille !
Je ne sais plus quoi faire pour réparer définitivement ce FS, étant
entendu qu'il m'est impossible de backuper les 5TB de données stockées
sur ce volume, et que bien entendu ces données sont critiques
quelques détails :
- Debian Lenny amd64, avec un noyau standard (2.6.26)
- 3dm et 3ware CLI 10.2, dernier firmware à jour
Voila, des idées ?
--
Rico
Soit un serveur sous Debian Lenny avec une carte 3ware 9650-16SE et 12
disques en RAID6 avec des stripes de 256k.
le volume RAID6 contient en autre un gros volume LVM de 5T, formaté en
XFS.
Ce volume me fait des misères depuis vendredi dernier, avec ceci dans les
logs :
[18280.085219] xfs_imap_to_bp: xfs_trans_read_buf()returned an error 5 on
dm-2. Returning error.
[18280.085219] xfs_imap_to_bp: xfs_trans_read_buf()returned an error 5 on
dm-2. Returning error.
[18280.085254] xfs_imap_to_bp: xfs_trans_read_buf()returned an error 5 on
dm-2. Returning error.
[18280.085254] xfs_imap_to_bp: xfs_trans_read_buf()returned an error 5 on
dm-2. Returning error.
Je démonte alors tous lees volumes formatés en XFS, je décharge le module
xfs, j'ai ça dans les logs :
[18796.865785] BUG: soft lockup - CPU#2 stuck for 481s! [swapper:0]
[18796.865785] Modules linked in: xfs nfsd auth_rpcgss exportfs nfs lockd
nfs_acl sunrpc ipv6 bonding loop usbhid pl2303 usbserial i2c_i801 snd_pcm
snd_timer snd soundcore pcspkr hid i2c_core snd_page_alloc ff_memless
button evdev ext3 jbd mbcache dm_mirror dm_log dm_snapshot dm_mod sd_mod
ehci_hcd uhci_hcd 3w_9xxx scsi_mod igb thermal processor fan thermal_sys
[last unloaded: xfs]
[18796.868415] CPU 2:
[18796.868415] Modules linked in: xfs nfsd auth_rpcgss exportfs nfs lockd
nfs_acl sunrpc ipv6 bonding loop usbhid pl2303 usbserial i2c_i801 snd_pcm
snd_timer snd soundcore pcspkr hid i2c_core snd_page_alloc ff_memless
button evdev ext3 jbd mbcache dm_mirror dm_log dm_snapshot dm_mod sd_mod
ehci_hcd uhci_hcd 3w_9xxx scsi_mod igb thermal processor fan thermal_sys
[last unloaded: xfs]
Avec un call trace du crash du module
Je recharge le module XFS, et remonte le volume qui fait péter xfs
(toujours le même). Il monte des fois sans problème (avec récupération du
log) et fois, je suis obligé de faire un cfs_repair -L
Je redémonte le volume, je (re)lance un xfs_repair sur mon volume foireux,
et ça repart pour un moment puis rebelotte ! xfs repart en vrille !
Je ne sais plus quoi faire pour réparer définitivement ce FS, étant
entendu qu'il m'est impossible de backuper les 5TB de données stockées
sur ce volume, et que bien entendu ces données sont critiques
quelques détails :
- Debian Lenny amd64, avec un noyau standard (2.6.26)
- 3dm et 3ware CLI 10.2, dernier firmware à jour
Voila, des idées ?
--
Rico
Est-ce que le message lors du dump dans dmesg contient un "xfs force
shutdown"?
Qu'est ce que c'est comme disques durs? que donne
"tw_cli show alarms"
"tw_cli /cXX/uYY show all"
Et aussi un "zgrep 3w-9 /var/log/dmesg*" ?
À mon avis le problème n'est pas dans xfs; il semble y avoir des IO
errors. Je dirais que soit le noyau est moisi (possible), soit il y a un
problème avec le RAID.
--
Don't worry about people stealing your ideas. If it's original, you'll
have to ram it down their throats.
Howard Aiken, creator of the IBM/Harvard Mark 1 Computer
non
//dove> show alarms
Ctl Date Severity AEN Message
------------------------------------------------------------------------------
c0 [Tue Jun 28 2011 08:06:42] INFO Battery capacity test is
overdue
//dove> /c0/u0 show all
/c0/u0 status = OK
/c0/u0 is not rebuilding, its current state is OK
/c0/u0 is not verifying, its current state is OK
/c0/u0 is initialized.
/c0/u0 Write Cache = off
/c0/u0 Read Cache = Intelligent
/c0/u0 volume(s) = 1
/c0/u0 name = 3WARE
/c0/u0 serial number = MS2PRUGY000087004A99
/c0/u0 Ignore ECC policy = off
/c0/u0 Auto Verify Policy = on
/c0/u0 Storsave Policy = protection
/c0/u0 Command Queuing Policy = on
/c0/u0 Rapid RAID Recovery setting = all
/c0/u0 Parity Number = 2
Unit UnitType Status %RCmpl %V/I/M Port Stripe Size(GB)
------------------------------------------------------------------------
u0 RAID-6 OK - - - 256K 9313.12
u0-0 DISK OK - - p0 - 931.312
u0-1 DISK OK - - p1 - 931.312
u0-2 DISK OK - - p2 - 931.312
u0-3 DISK OK - - p3 - 931.312
u0-4 DISK OK - - p4 - 931.312
u0-5 DISK OK - - p5 - 931.312
u0-6 DISK OK - - p6 - 931.312
u0-7 DISK OK - - p7 - 931.312
u0-8 DISK OK - - p8 - 931.312
u0-9 DISK OK - - p9 - 931.312
u0-10 DISK OK - - p10 - 931.312
u0-11 DISK OK - - p11 - 931.312
u0/v0 Volume - - - - - 9313.12
Par contre 3dm m'envoie ce genre de mails :
WARNING - Buffer ECC error corrected: address=0x146620
WARNING - Buffer ECC error corrected: address=0x146620
ERROR - Cache synchronization failed; some data lost: unit=0
WARNING - Buffer ECC error corrected: address=0xE2E20
WARNING - Buffer ECC error corrected: address=0xE2E20
ERROR - Cache synchronization failed; some data lost: unit=0
J'ai donc désactivé le cache pour voir si ça venait de ça, il semble que
non.
J'ai donc mis à jour le firmware avec le dernier bêta, mais ça n'a pas
résolu le pb
Là je viens d'upgrader ma Lenny vers Squeeze, histoire d'avoir des outils
xfs plus à jour, et j'ai recompilé un 2.6.39 vanilla pour bénéficier des
nouveautées apportes récemment aux couches FS de linux (notamment sur xfs)
J'ai pas encore testé pour voir si le problème persiste...
Bah rien de spécial. Ah si : j'ai omi de préciser que j'ai perdu un
disque sur volume, qui a donc dû être remplacé. Le volume a été
reconstruit sans remonter de problème particulier.
Le truc rigolo (mais qui ne me fait pas rire) c'est que j'ai fait un seul
gros volume RAID de 9T que j'utilise ensuite avec LVM. J'ai plusieurs LVs,
certains en ext3, et d'autres en xfs, et je n'ai de problème QUE sur un
seul LV en particulier (en l'occurence formatté en xfs)
Pour info j'ai utilisé ces paramètres pour formater le volume :
# mkfs.xfs -f -d su%6k -d sw -l sunit8 -l lazy-count=1 /dev/
vg_dove/bagpuss
et pour le monter :
/dev/vg_dove/bagpuss /data/bagpuss xfs
allocsize1072,attr2,logbufs=8,logbsize&2144,nobarrier,noatime,uquota
--
Rico
Rien ne m'est sûr que la chose incertaine.
-+- François Villon (1431-1463?), Ballade du concours
de Blois (vers 9) -+-
Juste une petite précision :
dove:~# xfs_check /dev/vg_dove/bagpuss_tmp
Killed
dove:~# echo $#
0
Et dans le dmesg, je constate que la machine est tombé à cours de
mémoire, et a donc courageusement suicidé xfs_db
--
Rico
Ce qui se conçoit bien, s'énonce clairement.
-+- Nicolas Boileau -+-
Ouhla la, très mauvais... Le contrôleur débloque. Est-ce que ce sont des
disques Western Digital par hasard?
--
L'esprit qu'on veut avoir gâte celui qu'on a.
Jean-Baptiste Louis Grisset.
C'est normal, utilise plutôt xfs_repair -n /dev/xxx/yyy
Tu es en 32 bits je suppose?
--
Désormais, pour les nations et pour les peuples, une goutte de pétrole
a la valeur d'une goutte de sang.
Georges Clémenceau.
non, ce sont des Hitachi HDE721010SLA330 (fw ST6OA3AA)
Je fais quoi ? je remplace le contrôleur ? avec le BBU ?
--
Rico
La raison du plumard est toujours la meilleure !
-+- Coluche -+-
Juste pour être sur : Si je remplace le contrôleur 3ware, au redémarrage
du serveur, la nouvelle carte 3ware détectera le volume RAID construit
avec l'ancien et mettra à jour sa config interne en fonction des infos
contenues sur les disques. Donc je ne perds rien. J'ai bien bon là ?
--
Rico
Croire en Dieu équivaut à se tuer. La foi n'est qu'un mode de suicide.
-+- Louis Scutenaire -+-
Absolument, c'est plug and play. Tu as le même contrôleur en stock? Il
est encore sous garantie? Au cas où si tu as besoin je peux te prêter la
même pareille le temps de la RMA par exemple.
--
Toutes les organisations ont leur règles, et les Femmes Algériennes
doivent avoir aussi leurs règles.
Kaid Ahmed.
Sympa mais la machine est en Californie ;)
Dès que le jour se lève là-bas, j'appelle mon fournisseur pour qu'il me
file une autre carte en urgence, quitte à la payer. Je verrai pour la RMA
par la suite.
D'ailleurs ce sera pas une mauvaise chose d'avoir une carte en spare,
dans la mesure où j'ai plusieurs systèmes avec des 9650-16ML...
En attendant, si je mets le volume en RO, ça pourrait tenir ?
--
Rico
Lorsque vous faites une remarque stupide, sa stupidité sera évidente, y
compris pour vous-même.
-+- George Orwell -+-
Sûrement; les "ECC errors" sont juste la marque que la cache de la carte
doit être endommagé.
--
Software is like sex: It's better when it's free.
Linus Torvalds