grave probleme RAID 10 ne s'assemble plus après maj

Le
Xavier Brochard
Bonjour à tous

J'ai un sérieux problème de Raid 10 (logiciel) sur un serveur DELL.
Après une mise à jour du kernel, et un reboot on m'a téléphoné pour me dire
que le système ne démarrait pas. Le prompt proposait de sauter le montage de
cetaines partitions. J'ai dit OK.
Ensuite j'ai pris la main (ssh):
- il y a une erreur du driver mpt2sas (carte LSI ou "PERC" chez Dell), mais
qui semble juste "cosmétique" d'après ce que j'ai pêché sur le net
- plein de Buffer I/O error on device dm-1, logical block 12206064
- encore plus de EXT4-fs error (device dm-1): ext4_read_inode_bitmap: Cannot
read inode bitmap - block_group = 320, inode_bitmap = 10485776
Ce qui est bizarre parce que les partitions ne sont pas montées (sauf / qui
est sur carte ssd hors raid).

Toutes les partitions Raid 10 sont marquées "inactive" dans /proc/mdstat
Le superblock de l'une d'elle n'existe plus (selon mdadm -Av)

Je suis un peu embêté, je n'ai jamais eu ça, et on me met la pression pour
que ça remarche vite
J'ai 2 soucis:
je ne comprend pas ce qui a pu se passer
et je ne comprend pas exactement la situation, ce qui m'empêche de faire ce
qu'il faut:
- Pourquoi "inactive"? je n'ai jamais vu ça avant ou je n'y a jamais prêté
attention. La doc du Raid Linux étant ce qu'elle est, je ne trouve pas
l'info.
- Me faut-il recréer le superblock manquant sur la partition ou bien
réassembler le raid en dégradé avec une partition fautive pour qu'elle soit
recréée?

Et pour comprendre:
- les disques sont neufs, il n'y a eu aucune alerte, je doute que ce soit un
problème physique (d'ailleurs les outils de diagnostic smart, pour ce qu'ils
valent (cf papiers de Google en 2008) n'indiquent rien.
- il y a une partition spare, pourquoi mdadm ne s'est-il pas rabattu dessus?


Merci pour vos lumières

xavier


--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers debian-user-french-REQUEST@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmaster@lists.debian.org
Archive: http://lists.debian.org/ilqfji$3mm$1@dough.gmane.org
Vidéos High-Tech et Jeu Vidéo
Téléchargements
Vos réponses
Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
daniel huhardeaux
Le #23209111
Le 16/03/2011 14:56, Xavier Brochard a écrit :
Bonjour à tous

J'ai un sérieux problème de Raid 10 (logiciel) sur un serveur DELL.
Après une mise à jour du kernel, et un reboot on m'a téléphoné pour me dire
que le système ne démarrait pas. Le prompt proposait de sauter le montage de
cetaines partitions. J'ai dit OK.
Ensuite j'ai pris la main (ssh):
- il y a une erreur du driver mpt2sas (carte LSI ou "PERC" chez Dell),


[...]
- il y a une partition spare, pourquoi mdadm ne s'est-il pas rabattu dessus



Ceci est mutuellement exclusif: soit il s'agit de Raid matériel
(mpt2sas) soit il s'agit de raid logiciel (mdadm)

--
Daniel

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/
Xavier Brochard
Le #23209131
daniel huhardeaux wrote:
Le 16/03/2011 14:56, Xavier Brochard a écrit :
Bonjour à tous

J'ai un sérieux problème de Raid 10 (logiciel) sur un serveur DELL.
Après une mise à jour du kernel, et un reboot on m'a téléphoné pour me
dire que le système ne démarrait pas. Le prompt proposait de sauter le
montage de cetaines partitions. J'ai dit OK.
Ensuite j'ai pris la main (ssh):
- il y a une erreur du driver mpt2sas (carte LSI ou "PERC" chez Dell),


[...]
- il y a une partition spare, pourquoi mdadm ne s'est-il pas rabattu
dessus



Ceci est mutuellement exclusif: soit il s'agit de Raid matériel
(mpt2sas) soit il s'agit de raid logiciel (mdadm)



en principe non, mpt2sas gère la carte qui est mise en controleur de disques
ou alors?...



--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/ilqgun$bpa$
daniel huhardeaux
Le #23209171
Le 16/03/2011 15:19, Xavier Brochard a écrit :
daniel huhardeaux wrote:
Le 16/03/2011 14:56, Xavier Brochard a écrit :
Bonjour à tous

J'ai un sérieux problème de Raid 10 (logiciel) sur un serveur DELL.
Après une mise à jour du kernel, et un reboot on m'a téléphoné pour me
dire que le système ne démarrait pas. Le prompt proposait de sauter le
montage de cetaines partitions. J'ai dit OK.
Ensuite j'ai pris la main (ssh):
- il y a une erreur du driver mpt2sas (carte LSI ou "PERC" chez Dell),


[...]
- il y a une partition spare, pourquoi mdadm ne s'est-il pas rabattu
dessus


Ceci est mutuellement exclusif: soit il s'agit de Raid matériel
(mpt2sas) soit il s'agit de raid logiciel (mdadm)


en principe non, mpt2sas gère la carte qui est mise en controleur de disques
ou alors?...


J'ai aussi des serveurs Dell en raid1 logiciel: uniquement mdadm, pas de
mpt2sas. J'ai parcontre utilisé ce module sur des serveurs IBM par ex
qui avaient eux du raid matériel.

Dans les Dell, dans le Bios, je désactive le Raid matériel et me
retrouve avec deux disques. Je me demande d'ailleurs comment vous avez
fait pour mdadm, si le raid matériel est activé l'OS ne devrait voir
qu'un seul disque.
--
Daniel

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/
Xavier Brochard
Le #23209161
daniel huhardeaux wrote:
Le 16/03/2011 15:19, Xavier Brochard a écrit :
daniel huhardeaux wrote:
Le 16/03/2011 14:56, Xavier Brochard a écrit :
Bonjour à tous

J'ai un sérieux problème de Raid 10 (logiciel) sur un serveur DELL.
Après une mise à jour du kernel, et un reboot on m'a téléphoné pour me
dire que le système ne démarrait pas. Le prompt proposait de sauter le
montage de cetaines partitions. J'ai dit OK.
Ensuite j'ai pris la main (ssh):
- il y a une erreur du driver mpt2sas (carte LSI ou "PERC" chez Dell),


[...]
- il y a une partition spare, pourquoi mdadm ne s'est-il pas rabattu
dessus


Ceci est mutuellement exclusif: soit il s'agit de Raid matériel
(mpt2sas) soit il s'agit de raid logiciel (mdadm)


en principe non, mpt2sas gère la carte qui est mise en controleur de
disques ou alors?...


J'ai aussi des serveurs Dell en raid1 logiciel: uniquement mdadm, pas de
mpt2sas. J'ai parcontre utilisé ce module sur des serveurs IBM par ex
qui avaient eux du raid matériel.

Dans les Dell, dans le Bios, je désactive le Raid matériel et me
retrouve avec deux disques. Je me demande d'ailleurs comment vous avez
fait pour mdadm, si le raid matériel est activé l'OS ne devrait voir
qu'un seul disque.



C'est bien du raid logiciel, je me suis mal exprimé:
la carte sert de controleur sata3 pour les disques. Je pensais que mpt2sas
gerait aussi la carte dans ce cas.

xavier

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/ilqhp3$gao$
daniel huhardeaux
Le #23209231
Le 16/03/2011 14:56, Xavier Brochard a écrit :
[...]
J'ai un sérieux problème de Raid 10 (logiciel) sur un serveur DELL.
Après une mise à jour du kernel,



Quel kernel? Lenny ou Squeeze?

et un reboot on m'a téléphoné pour me dire
que le système ne démarrait pas. Le prompt proposait de sauter le montage de
cetaines partitions. J'ai dit OK.
Ensuite j'ai pris la main (ssh):


[...]
- plein de Buffer I/O error on device dm-1, logical block 12206064
- encore plus de EXT4-fs error (device dm-1): ext4_read_inode_bitmap: Cannot
read inode bitmap - block_group = 320, inode_bitmap = 10485776
Ce qui est bizarre parce que les partitions ne sont pas montées (sauf / qui
est sur carte ssd hors raid).

Toutes les partitions Raid 10 sont marquées "inactive" dans /proc/mdstat
Le superblock de l'une d'elle n'existe plus (selon mdadm -Av)



Si on remonte les partitions à la main? Ou assemble avec l'option scan?

mdadm --examine --scan est un départ

[...]

--
Daniel

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/
Xavier Brochard
Le #23209261
Xavier Brochard wrote:
J'ai un sérieux problème de Raid 10 (logiciel) sur un serveur DELL.
...
Toutes les partitions Raid 10 sont marquées "inactive" dans /proc/mdstat
Le superblock de l'une d'elle n'existe plus (selon mdadm -Av)



je complète, il y a un truc que je n'avais pas remarqué
mdadm --examine /dev/sd[cdefg]1 montre 2 disques inversés

pour /dev/sdc1 j'ai:
this 1 8 49 1 active sync /dev/sdd1
0 0 8 33 0 active sync /dev/sdc1
1 1 8 49 1 active sync /dev/sdd1
2 2 8 65 2 active sync /dev/sde1
3 3 8 81 3 active sync /dev/sdf1
4 4 8 97 4 spare /dev/sdg1

et pour /dev/sdd1 j'ai:
this 0 8 33 0 active sync /dev/sdc1
0 0 8 33 0 active sync /dev/sdc1
1 1 8 49 1 active sync /dev/sdd1
2 2 8 65 2 active sync /dev/sde1
3 3 8 81 3 active sync /dev/sdf1
4 4 8 97 4 spare /dev/sdg1

Les numéros de disque, de majeur, de mineur et de périph raid correspondent
à la liste des périphériques donné par mdadm.

et info oubliée, mdadm --examine indique la même liste de périphériques pour
tous les disques sauf pour /dev/sde1 qui donne la liste:
this 2 8 65 2 active sync /dev/sde1
0 0 0 0 0 removed
1 1 0 0 1 faulty removed
2 2 8 65 2 active sync /dev/sde1
3 3 0 0 3 faulty removed
(et rien pour le 5e disque)
Mais je suppose que c'est à cause du superblock disparu sur /dev/sde1

xavier

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/ilqjon$th3$
Xavier Brochard
Le #23209291
daniel huhardeaux wrote:
Le 16/03/2011 14:56, Xavier Brochard a écrit :
[...]
J'ai un sérieux problème de Raid 10 (logiciel) sur un serveur DELL.
Après une mise à jour du kernel,



Quel kernel?



2.6.32-29

Lenny ou Squeeze?



désolé c'est de l'ubuntu je n'avais pas vu
(qu'est-ce qui m'a pris de mettre ubuntu là-dessus?!)

Si on remonte les partitions à la main?



ça ne marche pas, fsck partout. J'ai joué avec la partition de /tmp pour
voir, et malré toutes les réparations, c'est monté read-only, et plein de
choses manquent

Ou assemble avec l'option scan?

mdadm --examine --scan est un départ



j'ai déjà essayé, tu penses! ça ne fait rien
après avoir rebooter sur system-rescue-cd, j'ai tenté d'aller plus loin, et
après quelques manips (surtout pour recréer mdadm.conf sur le live cd), si
j'assemble j'obtiens une kyrielle de device or resources busy, no
recogniseable superblock, etc.


xavier


--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/ilqk84$115$
daniel huhardeaux
Le #23209341
Le 16/03/2011 16:15, Xavier Brochard a écrit :
daniel huhardeaux wrote:
Le 16/03/2011 14:56, Xavier Brochard a écrit :
[...]
J'ai un sérieux problème de Raid 10 (logiciel) sur un serveur DELL.
Après une mise à jour du kernel,


Quel kernel?


2.6.32-29

Lenny ou Squeeze?


désolé c'est de l'ubuntu je n'avais pas vu
(qu'est-ce qui m'a pris de mettre ubuntu là-dessus?!)



Ca ne change rien. Et Squeeze est livrée avec le même noyau.

[...]
j'ai déjà essayé, tu penses! ça ne fait rien
après avoir rebooter sur system-rescue-cd, j'ai tenté d'aller plus loin, et
après quelques manips (surtout pour recréer mdadm.conf sur le live cd), si
j'assemble j'obtiens une kyrielle de device or resources busy, no
recogniseable superblock, etc.



En dehors d'un GROS bug dans le kernel, cela ne peut pas venir de la
carte contrôleur? N'oubliez pas que le Raid des PERC de base sont du
raid ... logiciel!

A part cela, plus trop d'idée ...

--
Daniel

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/
Xavier Brochard
Le #23209331
daniel huhardeaux wrote:
En dehors d'un GROS bug dans le kernel, cela ne peut pas venir de la
carte contrôleur?



J'ai pensé exactement les mêmes choses, d'où mon appel à l'aide!
Redémarrer sur une version précédente du kernel ne change rien, mais ça peut
tout à fait venir de dégats occasionné sur le raid par un kernel fautif.
J'ai testé la carte contrôleur avec un utilitaire Dell, mais pour ce que ça
vaut...

N'oubliez pas que le Raid des PERC de base sont du
raid ... logiciel!



c'est pour ça que la carte n'est pas utilisée en raid, mais en simple
contrôleur sata.


A part cela, plus trop d'idée ...



bah merci quand même
ça m'a éclairci qq idées

xavier


--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Archive: http://lists.debian.org/ilqmgc$f8d$
Publicité
Poster une réponse
Anonyme