XServe RAID: volume ne monte plus

15 réponses

J.P. Poindessault

25/01/2007 à 17:31

Bonsoir,

J'ai un pb avec un volume RAID qui ne monte plus.
Je n'ai pas de sauvegarde derrière et ce volume contenait environ 200 Go
d'images de microscopie confocale ou de données d'expériences difficiles
à refaire.
Panique à bord, même si les utilisateurs savaient que ce serveur n'avait
pour vocation que d'avoir une copie de leurs fichiers ailleurs et
d'échanger entre eux.

Vos suggestions de test et de réparation sont les bienvenues pour
m'aider à récupérer ce volume.

Merci

Jean-Pierre
---------------------

Config:
- XServe sous OS X server 10.3.9
- XServe RAID
5 disques en baie de gauche, en RAID 5 = PBSRaid0, monte OK
RAID Admin > capacité 517,66 GB
4 disques en baie de droite, en RAID 5 = ne monte plus (était
PBSRaid1).
RAID Admin > capacité 467.52 GB

Les deux volumes sont en HFS+ journalisé.

J'ai eu le panic log suivant:
===========
Thu Jan 18 17:28:58 2007
panic(cpu 0): HFS: corrupt VH on PBSRaid1, sig 0x4100, ver 0, blksize 0
................
Kernel version:
Darwin Kernel Version 7.9.0:
Wed Mar 30 20:11:17 PST 2005; root:xnu/xnu-517.12.7.obj~1/RELEASE_PPC
===========

Le lendemain, 19/01, tous les indicateurs RAID Admin sont OK: pas de pb
hardware

Dans les "events log" du XServe RAID, je n'ai trouvé que ce qui suit
d'anormal mais daté du 09/01/2007 et sans réapparition après:
=========
Lower Controller 01/09/07 19:16:55 RAID Controller 2 Communication
Failure
==========
le contrôleur 2 est celui qui contrôle la baie où se trouve le volume
qui ne monte pas.

infos par DiskUtil 10.4:
==========
Verifying volume ³disk2s3²
Checking HFS Plus volume.
Checking Extents Overflow file.
Checking Catalog file.
Invalid extent entry
The volume PBSRaid1 needs to be repaired.

Volume check failed.
==========
La réparation est alors impossible avec DiskUtil

infos par pdisk:
==========
pbsxserve:~ admin$ sudo pdisk /dev/disk3 -dump
/dev/disk3 map block size=512
#: type name length base (
size )
1: Apple_partition_map Apple 63 @ 1
2: Apple_Free 0+@ 64
3: Apple_HFS Apple_HFS_Untitled_2 980189104 @ 262208
(467.4G)
4: Apple_Free 0+@ 980451312

Device block size=512, Number of Blocks=980451328
DeviceType=0x0, DeviceId=0x0
==========
Je ne comprends pas bien l'existence de la partition 2 de longueur 0
alors que la base de la suivante est à 262208.

Sur le RAID qui va bien, j'ai:
==========
pbsxserve:~ admin$ sudo pdisk /dev/disk5 -dump
Password:
/dev/disk5 map block size=512
#: type name length base (
size )
1: Apple_partition_map Apple 63 @ 1
2: Apple_HFS PBSRaid0 1085620152 @ 64
(517.7G)
3: Apple_Free 0+@ 1085620216

Device block size=512, Number of Blocks=1085620224
DeviceType=0x0, DeviceId=0x0
==========

10 réponses

1 2

patpro ~ Patrick Proniewski

25/01/2007 à 17:39

In article
,
"J.P. Poindessault" wrote:

Vos suggestions de test et de réparation sont les bienvenues pour
m'aider à récupérer ce volume.

qu'en est-il des status de chaque disque physique ? (en gros un RAID 5
meurt à partir de 2 disques physiques perdus)

patpro

--
http://www.patpro.net/

jean-pierre poindessault

25/01/2007 à 19:04

In article ,
patpro ~ Patrick Proniewski wrote:

In article
,
"J.P. Poindessault" wrote:

Vos suggestions de test et de réparation sont les bienvenues pour
m'aider à récupérer ce volume.

qu'en est-il des status de chaque disque physique ? (en gros un RAID 5
meurt à partir de 2 disques physiques perdus)

patpro

Aucun pb hardware relevé dans le log du XServe RAID via RAID Admin, en
dehors du défaut de communication du contrôleur 2 du 9/01

Jean-Pierre

Nicolas.MICHEL

29/01/2007 à 11:36

patpro ~ Patrick Proniewski wrote:

In article
,
"J.P. Poindessault" wrote:

Vos suggestions de test et de réparation sont les bienvenues pour
m'aider à récupérer ce volume.

qu'en est-il des status de chaque disque physique ? (en gros un RAID 5
meurt à partir de 2 disques physiques perdus)

ou d'un seul contrôleur :-/

Ce que j'ai déjà vu 3x et qui pourrait bien être le problème de
Jean-Pierre, je cite :

Lower Controller 01/09/07 19:16:55 RAID Controller 2 Communication
Failure

C'est les joies du raid.

Ceci dit c'est peut-être l'occasion pour obtennir le budjet "backup", ce
petit accident :)

--
Nicolas

patpro ~ Patrick Proniewski

29/01/2007 à 11:45

In article <1hsp92c.1ps4pxe150d78iN%,
(Nicolas MICHEL) wrote:

patpro ~ Patrick Proniewski wrote:

In article
,
"J.P. Poindessault" wrote:

Vos suggestions de test et de réparation sont les bienvenues pour
m'aider à récupérer ce volume.

qu'en est-il des status de chaque disque physique ? (en gros un RAID 5
meurt à partir de 2 disques physiques perdus)

ou d'un seul contrôleur :-/

Ce que j'ai déjà vu 3x et qui pourrait bien être le problème de
Jean-Pierre, je cite :

Lower Controller 01/09/07 19:16:55 RAID Controller 2 Communication
Failure

C'est les joies du raid.

Ceci dit c'est peut-être l'occasion pour obtennir le budjet "backup", ce
petit accident :)

il arrive que les cartes controleur se déconnectent partiellement. C'est
surtout apres les transports, donc ça doit vraiment être super rare en
salle des machines. Mais a tout hasard, une bonne pression pour vérifier
que tout est en place ça ne coute rien.
Par contre, ça ne devrait rien changer au problème de J.P.

patpro

--
http://www.patpro.net/

Mahakashyapa

29/01/2007 à 12:13

Le 29/01/07 11:36, dans 1hsp92c.1ps4pxe150d78iN%,
« Nicolas MICHEL » a eu la brillante idée de
dire :

patpro ~ Patrick Proniewski wrote:

In article
,
"J.P. Poindessault" wrote:

Vos suggestions de test et de réparation sont les bienvenues pour
m'aider à récupérer ce volume.

qu'en est-il des status de chaque disque physique ? (en gros un RAID 5
meurt à partir de 2 disques physiques perdus)

ou d'un seul contrôleur :-/

Ce que j'ai déjà vu 3x et qui pourrait bien être le problème de
Jean-Pierre, je cite :

Lower Controller 01/09/07 19:16:55 RAID Controller 2 Communication
Failure

C'est les joies du raid.

Ceci dit c'est peut-être l'occasion pour obtennir le budjet "backup", ce
petit accident :)

Et si on change le contrôleur, le raid est perdu?

laurent.pertois

29/01/2007 à 12:45

Nicolas MICHEL wrote:

qu'en est-il des status de chaque disque physique ? (en gros un RAID 5
meurt à partir de 2 disques physiques perdus)

ou d'un seul contrôleur :-/

Le RAID ne doit pas mourir parce qu'un contrôleur est foutu, en
changeant le contrôleur, le RAID doit revenir, en tous cas, c'est comme
ça sur les Xserve RAID.

--
Politically Correct Unix - UTILITIES
The "touch" command has been removed from the standard distribution due
to its inappropriate use by high-level managers.

Nicolas.MICHEL

29/01/2007 à 13:57

Laurent Pertois wrote:

Nicolas MICHEL wrote:

qu'en est-il des status de chaque disque physique ? (en gros un RAID 5
meurt à partir de 2 disques physiques perdus)

ou d'un seul contrôleur :-/

Le RAID ne doit pas mourir parce qu'un contrôleur est foutu, en
changeant le contrôleur, le RAID doit revenir, en tous cas, c'est comme
ça sur les Xserve RAID.

C'est la théorie ça :)

Tout dépends de la façon dont le contrôleur agonise.
Sur ceux que j'ai vu, le raid était corrupt mais on a pu le
reconstruire. (raid5)
Après, passé un certain degré de coruption j'immagine que c'est perdu.

L'autre problème est que probablement la procédure du "call center"
demandera de tenter de remonter le raid avant de changer physiquement le
controleur :)

--
Nicolas

laurent.pertois

29/01/2007 à 18:52

Nicolas MICHEL wrote:

Le RAID ne doit pas mourir parce qu'un contrôleur est foutu, en
changeant le contrôleur, le RAID doit revenir, en tous cas, c'est comme
ça sur les Xserve RAID.

C'est la théorie ça :)

Ben, je l'ai aussi fait en pratique, ce qui ne prouve pas que tout doit
bien passer. Mais c'était un contrôleur qui a lâché brutalement.

Tout dépends de la façon dont le contrôleur agonise.
Sur ceux que j'ai vu, le raid était corrupt mais on a pu le
reconstruire. (raid5)
Après, passé un certain degré de coruption j'immagine que c'est perdu.

Ca, c'est effectivement possible, tout dépend de ce qu'il a corrompu.

L'autre problème est que probablement la procédure du "call center"
demandera de tenter de remonter le raid avant de changer physiquement le
controleur :)

Euh, si le contrôleur est mort, je ne vois pas ce qui peut être monté :)

--
Politically Correct Unix - UTILITIES
The "touch" command has been removed from the standard distribution due
to its inappropriate use by high-level managers.

jean-pierre poindessault

29/01/2007 à 23:09

Merci de vos réponses.
En ce qui concerne le contrôleur 2, celui qui contrôle la baie du volume
qui ne monte pas, le log indique un pb de communication le 9/01.
Le panic log indiquant que le volume étaut mort est daté du 17/01.

Depuis le 9/01 tout les voyants sont au "vert" y compris le contrôleur 2.

En fait, je me fous complètement de la cause de la panne.

Rendre leurs données accessibles à mes clients me serait fort agréable,
fort diplomatique et leur redonnerait confiance dans le serveur maison.

quelles pistes ?

1- Diskutil se déclare impuissant
1bis - j'ai lu que Diskutil de 10.4 était plus "performant" que celui de
10.3.9 (mon OS actuel sur le serveur). Je vais essayer ça, mais je doute

2- DiskWarrior ?

3- demander au RAID de se reconstituer (il va être capable de remonter
une table des partitions et un directory propre ...)

4- DataRescue ? mais le contenu de nombreux fichiers n'est pas
identifiable aisémment, de plus il y en a des milliers !

vos suggestions sont les bienvenues.

Merci

Jean-Pierre

laurent.pertois

29/01/2007 à 23:32

J.P. Poindessault wrote:

Vos suggestions de test et de réparation sont les bienvenues pour
m'aider à récupérer ce volume.

Est-ce que tout va bien sur la connectique :

- contrôleur
- carte Fibre Channel
- câbles Fibre Channel

Ce sont les choses à regarder également.

--
Politically Correct Unix - UTILITIES
The "touch" command has been removed from the standard distribution due
to its inappropriate use by high-level managers.

1 2

XServe RAID: volume ne monte plus

10 réponses

Veuillez sélectionner un problème