erreurs sur un systeme de fichiers XFS

Emmanuel Florac

28/06/2011 à 10:28

Le Mon, 27 Jun 2011 21:39:33 +0000, Eric Belhomme a écrit:

quelques détails :
- Debian Lenny amd64, avec un noyau standard (2.6.26) - 3dm et 3ware CLI
10.2, dernier firmware à jour

Voila, des idées ?

Est-ce que le message lors du dump dans dmesg contient un "xfs force
shutdown"?

Qu'est ce que c'est comme disques durs? que donne

"tw_cli show alarms"
"tw_cli /cXX/uYY show all"

Et aussi un "zgrep 3w-9 /var/log/dmesg*" ?

À mon avis le problème n'est pas dans xfs; il semble y avoir des IO
errors. Je dirais que soit le noyau est moisi (possible), soit il y a un
problème avec le RAID.

--
Don't worry about people stealing your ideas. If it's original, you'll
have to ram it down their throats.
Howard Aiken, creator of the IBM/Harvard Mark 1 Computer

Eric Belhomme

28/06/2011 à 11:03

Le Tue, 28 Jun 2011 08:28:50 +0000, Emmanuel Florac a écrit :

Est-ce que le message lors du dump dans dmesg contient un "xfs force
shutdown"?

non

Qu'est ce que c'est comme disques durs? que donne

"tw_cli show alarms"
"tw_cli /cXX/uYY show all"

//dove> show alarms

Ctl Date Severity AEN Message
------------------------------------------------------------------------------
c0 [Tue Jun 28 2011 08:06:42] INFO Battery capacity test is
overdue

//dove> /c0/u0 show all
/c0/u0 status = OK
/c0/u0 is not rebuilding, its current state is OK
/c0/u0 is not verifying, its current state is OK
/c0/u0 is initialized.
/c0/u0 Write Cache = off
/c0/u0 Read Cache = Intelligent
/c0/u0 volume(s) = 1
/c0/u0 name = 3WARE
/c0/u0 serial number = MS2PRUGY000087004A99
/c0/u0 Ignore ECC policy = off
/c0/u0 Auto Verify Policy = on
/c0/u0 Storsave Policy = protection
/c0/u0 Command Queuing Policy = on
/c0/u0 Rapid RAID Recovery setting = all
/c0/u0 Parity Number = 2

Unit UnitType Status %RCmpl %V/I/M Port Stripe Size(GB)
------------------------------------------------------------------------
u0 RAID-6 OK - - - 256K 9313.12
u0-0 DISK OK - - p0 - 931.312
u0-1 DISK OK - - p1 - 931.312
u0-2 DISK OK - - p2 - 931.312
u0-3 DISK OK - - p3 - 931.312
u0-4 DISK OK - - p4 - 931.312
u0-5 DISK OK - - p5 - 931.312
u0-6 DISK OK - - p6 - 931.312
u0-7 DISK OK - - p7 - 931.312
u0-8 DISK OK - - p8 - 931.312
u0-9 DISK OK - - p9 - 931.312
u0-10 DISK OK - - p10 - 931.312
u0-11 DISK OK - - p11 - 931.312
u0/v0 Volume - - - - - 9313.12

Par contre 3dm m'envoie ce genre de mails :

WARNING - Buffer ECC error corrected: address=0x146620
WARNING - Buffer ECC error corrected: address=0x146620
ERROR - Cache synchronization failed; some data lost: unit=0
WARNING - Buffer ECC error corrected: address=0xE2E20
WARNING - Buffer ECC error corrected: address=0xE2E20
ERROR - Cache synchronization failed; some data lost: unit=0

J'ai donc désactivé le cache pour voir si ça venait de ça, il semble que
non.
J'ai donc mis à jour le firmware avec le dernier bêta, mais ça n'a pas
résolu le pb
Là je viens d'upgrader ma Lenny vers Squeeze, histoire d'avoir des outils
xfs plus à jour, et j'ai recompilé un 2.6.39 vanilla pour bénéficier des
nouveautées apportes récemment aux couches FS de linux (notamment sur xfs)
J'ai pas encore testé pour voir si le problème persiste...

Et aussi un "zgrep 3w-9 /var/log/dmesg*" ?

Bah rien de spécial. Ah si : j'ai omi de préciser que j'ai perdu un
disque sur volume, qui a donc dû être remplacé. Le volume a été
reconstruit sans remonter de problème particulier.

À mon avis le problème n'est pas dans xfs; il semble y avoir des IO
errors. Je dirais que soit le noyau est moisi (possible), soit il y a un
problème avec le RAID.

Le truc rigolo (mais qui ne me fait pas rire) c'est que j'ai fait un seul
gros volume RAID de 9T que j'utilise ensuite avec LVM. J'ai plusieurs LVs,
certains en ext3, et d'autres en xfs, et je n'ai de problème QUE sur un
seul LV en particulier (en l'occurence formatté en xfs)

Pour info j'ai utilisé ces paramètres pour formater le volume :

# mkfs.xfs -f -d su%6k -d sw -l sunit8 -l lazy-count=1 /dev/
vg_dove/bagpuss

et pour le monter :

/dev/vg_dove/bagpuss /data/bagpuss xfs
allocsize1072,attr2,logbufs=8,logbsize&2144,nobarrier,noatime,uquota

--
Rico
Rien ne m'est sûr que la chose incertaine.
-+- François Villon (1431-1463?), Ballade du concours
de Blois (vers 9) -+-

Le Tue, 28 Jun 2011 08:28:50 +0000, Emmanuel Florac a écrit :

Est-ce que le message lors du dump dans dmesg contient un "xfs force
shutdown"?

non

Qu'est ce que c'est comme disques durs? que donne

"tw_cli show alarms"
"tw_cli /cXX/uYY show all"

//dove> show alarms

Ctl Date Severity AEN Message
------------------------------------------------------------------------------
c0 [Tue Jun 28 2011 08:06:42] INFO Battery capacity test is
overdue

//dove> /c0/u0 show all
/c0/u0 status = OK
/c0/u0 is not rebuilding, its current state is OK
/c0/u0 is not verifying, its current state is OK
/c0/u0 is initialized.
/c0/u0 Write Cache = off
/c0/u0 Read Cache = Intelligent
/c0/u0 volume(s) = 1
/c0/u0 name = 3WARE
/c0/u0 serial number = MS2PRUGY000087004A99
/c0/u0 Ignore ECC policy = off
/c0/u0 Auto Verify Policy = on
/c0/u0 Storsave Policy = protection
/c0/u0 Command Queuing Policy = on
/c0/u0 Rapid RAID Recovery setting = all
/c0/u0 Parity Number = 2

Unit UnitType Status %RCmpl %V/I/M Port Stripe Size(GB)
------------------------------------------------------------------------
u0 RAID-6 OK - - - 256K 9313.12
u0-0 DISK OK - - p0 - 931.312
u0-1 DISK OK - - p1 - 931.312
u0-2 DISK OK - - p2 - 931.312
u0-3 DISK OK - - p3 - 931.312
u0-4 DISK OK - - p4 - 931.312
u0-5 DISK OK - - p5 - 931.312
u0-6 DISK OK - - p6 - 931.312
u0-7 DISK OK - - p7 - 931.312
u0-8 DISK OK - - p8 - 931.312
u0-9 DISK OK - - p9 - 931.312
u0-10 DISK OK - - p10 - 931.312
u0-11 DISK OK - - p11 - 931.312
u0/v0 Volume - - - - - 9313.12

Par contre 3dm m'envoie ce genre de mails :

WARNING - Buffer ECC error corrected: address=0x146620
WARNING - Buffer ECC error corrected: address=0x146620
ERROR - Cache synchronization failed; some data lost: unit=0
WARNING - Buffer ECC error corrected: address=0xE2E20
WARNING - Buffer ECC error corrected: address=0xE2E20
ERROR - Cache synchronization failed; some data lost: unit=0

J'ai donc désactivé le cache pour voir si ça venait de ça, il semble que
non.
J'ai donc mis à jour le firmware avec le dernier bêta, mais ça n'a pas
résolu le pb
Là je viens d'upgrader ma Lenny vers Squeeze, histoire d'avoir des outils
xfs plus à jour, et j'ai recompilé un 2.6.39 vanilla pour bénéficier des
nouveautées apportes récemment aux couches FS de linux (notamment sur xfs)
J'ai pas encore testé pour voir si le problème persiste...

Et aussi un "zgrep 3w-9 /var/log/dmesg*" ?

Bah rien de spécial. Ah si : j'ai omi de préciser que j'ai perdu un
disque sur volume, qui a donc dû être remplacé. Le volume a été
reconstruit sans remonter de problème particulier.

À mon avis le problème n'est pas dans xfs; il semble y avoir des IO
errors. Je dirais que soit le noyau est moisi (possible), soit il y a un
problème avec le RAID.

Le truc rigolo (mais qui ne me fait pas rire) c'est que j'ai fait un seul
gros volume RAID de 9T que j'utilise ensuite avec LVM. J'ai plusieurs LVs,
certains en ext3, et d'autres en xfs, et je n'ai de problème QUE sur un
seul LV en particulier (en l'occurence formatté en xfs)

Pour info j'ai utilisé ces paramètres pour formater le volume :

# mkfs.xfs -f -d su%6k -d sw -l sunit8 -l lazy-count=1 /dev/
vg_dove/bagpuss

et pour le monter :

/dev/vg_dove/bagpuss /data/bagpuss xfs
allocsize1072,attr2,logbufs=8,logbsize&2144,nobarrier,noatime,uquota

--
Rico
Rien ne m'est sûr que la chose incertaine.
-+- François Villon (1431-1463?), Ballade du concours
de Blois (vers 9) -+-

Vous avez filtré cet utilisateur ! Consultez son message

Le Tue, 28 Jun 2011 08:28:50 +0000, Emmanuel Florac a écrit :

Est-ce que le message lors du dump dans dmesg contient un "xfs force
shutdown"?

non

Qu'est ce que c'est comme disques durs? que donne

"tw_cli show alarms"
"tw_cli /cXX/uYY show all"

//dove> show alarms

Ctl Date Severity AEN Message
------------------------------------------------------------------------------
c0 [Tue Jun 28 2011 08:06:42] INFO Battery capacity test is
overdue

//dove> /c0/u0 show all
/c0/u0 status = OK
/c0/u0 is not rebuilding, its current state is OK
/c0/u0 is not verifying, its current state is OK
/c0/u0 is initialized.
/c0/u0 Write Cache = off
/c0/u0 Read Cache = Intelligent
/c0/u0 volume(s) = 1
/c0/u0 name = 3WARE
/c0/u0 serial number = MS2PRUGY000087004A99
/c0/u0 Ignore ECC policy = off
/c0/u0 Auto Verify Policy = on
/c0/u0 Storsave Policy = protection
/c0/u0 Command Queuing Policy = on
/c0/u0 Rapid RAID Recovery setting = all
/c0/u0 Parity Number = 2

Unit UnitType Status %RCmpl %V/I/M Port Stripe Size(GB)
------------------------------------------------------------------------
u0 RAID-6 OK - - - 256K 9313.12
u0-0 DISK OK - - p0 - 931.312
u0-1 DISK OK - - p1 - 931.312
u0-2 DISK OK - - p2 - 931.312
u0-3 DISK OK - - p3 - 931.312
u0-4 DISK OK - - p4 - 931.312
u0-5 DISK OK - - p5 - 931.312
u0-6 DISK OK - - p6 - 931.312
u0-7 DISK OK - - p7 - 931.312
u0-8 DISK OK - - p8 - 931.312
u0-9 DISK OK - - p9 - 931.312
u0-10 DISK OK - - p10 - 931.312
u0-11 DISK OK - - p11 - 931.312
u0/v0 Volume - - - - - 9313.12

Par contre 3dm m'envoie ce genre de mails :

WARNING - Buffer ECC error corrected: address=0x146620
WARNING - Buffer ECC error corrected: address=0x146620
ERROR - Cache synchronization failed; some data lost: unit=0
WARNING - Buffer ECC error corrected: address=0xE2E20
WARNING - Buffer ECC error corrected: address=0xE2E20
ERROR - Cache synchronization failed; some data lost: unit=0

J'ai donc désactivé le cache pour voir si ça venait de ça, il semble que
non.
J'ai donc mis à jour le firmware avec le dernier bêta, mais ça n'a pas
résolu le pb
Là je viens d'upgrader ma Lenny vers Squeeze, histoire d'avoir des outils
xfs plus à jour, et j'ai recompilé un 2.6.39 vanilla pour bénéficier des
nouveautées apportes récemment aux couches FS de linux (notamment sur xfs)
J'ai pas encore testé pour voir si le problème persiste...

Et aussi un "zgrep 3w-9 /var/log/dmesg*" ?

Bah rien de spécial. Ah si : j'ai omi de préciser que j'ai perdu un
disque sur volume, qui a donc dû être remplacé. Le volume a été
reconstruit sans remonter de problème particulier.

À mon avis le problème n'est pas dans xfs; il semble y avoir des IO
errors. Je dirais que soit le noyau est moisi (possible), soit il y a un
problème avec le RAID.

Le truc rigolo (mais qui ne me fait pas rire) c'est que j'ai fait un seul
gros volume RAID de 9T que j'utilise ensuite avec LVM. J'ai plusieurs LVs,
certains en ext3, et d'autres en xfs, et je n'ai de problème QUE sur un
seul LV en particulier (en l'occurence formatté en xfs)

Pour info j'ai utilisé ces paramètres pour formater le volume :

# mkfs.xfs -f -d su%6k -d sw -l sunit8 -l lazy-count=1 /dev/
vg_dove/bagpuss

et pour le monter :

/dev/vg_dove/bagpuss /data/bagpuss xfs
allocsize1072,attr2,logbufs=8,logbsize&2144,nobarrier,noatime,uquota

--
Rico
Rien ne m'est sûr que la chose incertaine.
-+- François Villon (1431-1463?), Ballade du concours
de Blois (vers 9) -+-

Eric Belhomme

28/06/2011 à 11:38

Le Tue, 28 Jun 2011 08:28:50 +0000, Emmanuel Florac a écrit :

À mon avis le problème n'est pas dans xfs; il semble y avoir des IO
errors. Je dirais que soit le noyau est moisi (possible), soit il y a un
problème avec le RAID.

Juste une petite précision :

dove:~# xfs_check /dev/vg_dove/bagpuss_tmp
Killed
dove:~# echo $#
0

Et dans le dmesg, je constate que la machine est tombé à cours de
mémoire, et a donc courageusement suicidé xfs_db

--
Rico
Ce qui se conçoit bien, s'énonce clairement.
-+- Nicolas Boileau -+-

Emmanuel Florac

28/06/2011 à 12:21

Le Tue, 28 Jun 2011 09:03:39 +0000, Eric Belhomme a écrit:

WARNING - Buffer ECC error corrected: address=0x146620 WARNING - Buffer
ECC error corrected: address=0x146620 ERROR - Cache synchronization
failed; some data lost: unit=0

Ouhla la, très mauvais... Le contrôleur débloque. Est-ce que ce sont des
disques Western Digital par hasard?

--
L'esprit qu'on veut avoir gâte celui qu'on a.
Jean-Baptiste Louis Grisset.

Emmanuel Florac

28/06/2011 à 12:24

Le Tue, 28 Jun 2011 09:38:33 +0000, Eric Belhomme a écrit:

Et dans le dmesg, je constate que la machine est tombé à cours de
mémoire, et a donc courageusement suicidé xfs_db

C'est normal, utilise plutôt xfs_repair -n /dev/xxx/yyy
Tu es en 32 bits je suppose?

--
Désormais, pour les nations et pour les peuples, une goutte de pétrole
a la valeur d'une goutte de sang.
Georges Clémenceau.

Eric Belhomme

28/06/2011 à 12:57

Le Tue, 28 Jun 2011 10:21:31 +0000, Emmanuel Florac a écrit :

Ouhla la, très mauvais... Le contrôleur débloque. Est-ce que ce sont des
disques Western Digital par hasard?

non, ce sont des Hitachi HDE721010SLA330 (fw ST6OA3AA)
Je fais quoi ? je remplace le contrôleur ? avec le BBU ?

--
Rico
La raison du plumard est toujours la meilleure !
-+- Coluche -+-

Eric Belhomme

28/06/2011 à 13:02

Le Tue, 28 Jun 2011 10:57:19 +0000, Eric Belhomme a écrit :

je remplace le contrôleur ? avec le BBU ?

Juste pour être sur : Si je remplace le contrôleur 3ware, au redémarrage
du serveur, la nouvelle carte 3ware détectera le volume RAID construit
avec l'ancien et mettra à jour sa config interne en fonction des infos
contenues sur les disques. Donc je ne perds rien. J'ai bien bon là ?

--
Rico
Croire en Dieu équivaut à se tuer. La foi n'est qu'un mode de suicide.
-+- Louis Scutenaire -+-

Emmanuel Florac

28/06/2011 à 13:08

Le Tue, 28 Jun 2011 11:02:27 +0000, Eric Belhomme a écrit:

Juste pour être sur : Si je remplace le contrôleur 3ware, au redémarrage
du serveur, la nouvelle carte 3ware détectera le volume RAID construit
avec l'ancien et mettra à jour sa config interne en fonction des infos
contenues sur les disques. Donc je ne perds rien. J'ai bien bon là ?

Absolument, c'est plug and play. Tu as le même contrôleur en stock? Il
est encore sous garantie? Au cas où si tu as besoin je peux te prêter la
même pareille le temps de la RMA par exemple.

--
Toutes les organisations ont leur règles, et les Femmes Algériennes
doivent avoir aussi leurs règles.
Kaid Ahmed.

Eric Belhomme

28/06/2011 à 13:43

Le Tue, 28 Jun 2011 11:08:09 +0000, Emmanuel Florac a écrit :

Le Tue, 28 Jun 2011 11:02:27 +0000, Eric Belhomme a écrit:

Juste pour être sur : Si je remplace le contrôleur 3ware, au
redémarrage du serveur, la nouvelle carte 3ware détectera le volume
RAID construit avec l'ancien et mettra à jour sa config interne en
fonction des infos contenues sur les disques. Donc je ne perds rien.
J'ai bien bon là ?

Absolument, c'est plug and play. Tu as le même contrôleur en stock? Il
est encore sous garantie? Au cas où si tu as besoin je peux te prêter la
même pareille le temps de la RMA par exemple.

Sympa mais la machine est en Californie ;)
Dès que le jour se lève là-bas, j'appelle mon fournisseur pour qu'il me
file une autre carte en urgence, quitte à la payer. Je verrai pour la RMA
par la suite.
D'ailleurs ce sera pas une mauvaise chose d'avoir une carte en spare,
dans la mesure où j'ai plusieurs systèmes avec des 9650-16ML...

En attendant, si je mets le volume en RO, ça pourrait tenir ?

--
Rico
Lorsque vous faites une remarque stupide, sa stupidité sera évidente, y
compris pour vous-même.
-+- George Orwell -+-

Emmanuel Florac

28/06/2011 à 14:09

Le Tue, 28 Jun 2011 11:43:51 +0000, Eric Belhomme a écrit:

En attendant, si je mets le volume en RO, ça pourrait tenir ?

Sûrement; les "ECC errors" sont juste la marque que la cache de la carte
doit être endommagé.

--
Software is like sex: It's better when it's free.
Linus Torvalds

erreurs sur un systeme de fichiers XFS

10 réponses

Veuillez sélectionner un problème