Perte d'un RAID au boot.

Le
yann
Bonjour,

Configuration installée :
Linux yan 2.6.26-2-amd64 #1 SMP Fri Mar 27 04:02:59 UTC 2009 x86_64
GNU/Linux (squeeze)
mdadm - v2.6.8 - 28th November 2008
Controleur SATA nVidia MCP55
6 disques : 2 de 80Go (sda, sdb) et 4 de 160Go (sdc, sdd, sde, sdf)
md0 RAID1 sur sda1 et sdb1 (/boot)
md1 RAID1 sur sda3 et sdb3 (vg0 pour trois LV /root, /var et /tmp)
md2 RAID5 sur sdc1, sdd1, sde1 et sdf1 (/home)

Configuration installée et fonctionnelle depuis le 25 avril avec trois ou
quatre redemarrage.

Hier après mise à jour parapt-get et redémarrage de la station : pas de
RAID5 donc pas de /home.
Le RAID semble ne comporter que un disque : sdc1 pas les autres.

Avec ultimat bootCD vérification rapide de TOUS les disques sans Pb.
4 maxtor et 2 Hitachi.

J'ai modifié /etc/fstab pour ne pas monter /home et la machine démarre.

La configuration RAID est la suivante /etc/mdadm/mdadm.conf
# mdadm.conf
#
# Please refer to mdadm.conf(5) for information about this file.
#

# by default, scan all partitions (/proc/partitions) for MD superblocks.
# alternatively, specify devices to scan, using wildcards if desired.
DEVICE partitions

# auto-create devices with Debian standard permissions
CREATE owner=root group=disk mode60 auto=yes

# automatically tag new arrays as belonging to the local system
HOMEHOST <system>

# instruct the monitoring daemon where to send mail alerts
MAILADDR root

# definitions of existing MD arrays
ARRAY /dev/md0 level=raid1 num-devices=2
UUIDh620286:22b73348:77e4a257:c4cd881d
ARRAY /dev/md1 level=raid1 num-devices=2
UUIDcc41575:7f462b22:a7e04fb4:5730e641
ARRAY /dev/md2 level=raid5 num-devices=4
UUID£6569cc:517fcf2a:7df44156:42b6858c

# This file was auto-generated on Sat, 25 Apr 2009 19:32:51 +0200
# by mkconf $Id$


cat /proc/mdstat
Personalities : [raid1] [raid6] [raid5] [raid4]
md2 : inactive sdc1[0]
156288256 blocks

md1 : active raid1 sda3[0] sdb3[1]
74244288 blocks [2/2] [UU]

md0 : active raid1 sda1[0] sdb1[1]
1951744 blocks [2/2] [UU]

unused devices: <none>



mdadm --detail /dev/md2
/dev/md2:
Version : 0.90
Creation Time : Sat Apr 25 19:16:52 2009
Raid Level : raid5
Used Dev Size : 156288256 (149.05 GiB 160.04 GB)
Raid Devices : 4
Total Devices : 1
Preferred Minor : 2
Persistence : Superblock is persistent

Update Time : Thu Apr 30 19:16:36 2009
State : active, degraded, Not Started
Active Devices : 1
Working Devices : 1
Failed Devices : 0
Spare Devices : 0

Layout : left-symmetric
Chunk Size : 64K

UUID : a36569cc:517fcf2a:7df44156:42b6858c
Events : 0.14

Number Major Minor RaidDevice State
0 8 33 0 active sync /dev/sdc1
1 0 0 1 removed
2 0 0 2 removed
3 0 0 3 removed

Que s'est-il passé pour que seulement les 3 dernier disques du RAID5
soit"partis" comme si leur identifiant avec disparu ?

Comment reconstruire le RAID 5 avec les données qui étaient desuus (70%
remplis) ?

Merci de vos conseils

-- Pour l'instant le RAID 5 pour garantir l'intégrité des données n'a
fonctionné que 6 jours ! joli score ! :-( --

yann



--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists Vous pouvez aussi ajouter le mot
``spam'' dans vos champs "From" et "Reply-To:"

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers debian-user-french-REQUEST@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmaster@lists.debian.org
Vidéos High-Tech et Jeu Vidéo
Téléchargements
Vos réponses
Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
Sylvain Sauvage
Le #19238421
, vendredi 1 mai 2009, 08:02:10 CEST

Bonjour,



’jour,

[…]
Que s'est-il passé pour que seulement les 3 dernier disques du RAID5
soit"partis" comme si leur identifiant avec disparu ?



Que disent les logs ?

Comment reconstruire le RAID 5 avec les données qui étaient des uus (70%
remplis) ?



T’as essayé mdadm --examine /dev/sdX1 (X dans [def]) ?
T’as essayé mdadm --assemble /dev/md2
--auto=yes /dev/sd[cdef]1 ?
Et avec --force ? (Sans garantie ! mais bon, t’as des
sauvegardes, hein…)

(Après, il y aura aussi --assume-clean. Sais pas si ça marche
bien en RAID5.)

-- Pour l'instant le RAID 5 pour garantir l'intégrité des donn ées n'a
fonctionné que 6 jours ! joli score ! :-( --



BAARF ! ( http://baarf.com )

--
Sylvain Sauvage

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists Vous pouvez aussi ajouter le mot
``spam'' dans vos champs "From" et "Reply-To:"

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Alain Baeckeroot
Le #19238871
Le 01/05/2009 à 17:25, Sylvain Sauvage a écrit :

, vendredi 1 mai 2009, 08:02:10 CEST
>
> Bonjour,

’jour,

>[…]
> Que s'est-il passé pour que seulement les 3 dernier disques du RAI D5
> soit"partis" comme si leur identifiant avec disparu ?

Que disent les logs ?

> Comment reconstruire le RAID 5 avec les données qui étaient d esuus (70%
> remplis) ?

T’as essayé mdadm --examine /dev/sdX1 (X dans [def]) ?
T’as essayé mdadm --assemble /dev/md2
--auto=yes /dev/sd[cdef]1 ?
Et avec --force ? (Sans garantie ! mais bon, t’as des
sauvegardes, hein…)

(Après, il y aura aussi --assume-clean. Sais pas si ça marche
bien en RAID5.)

> -- Pour l'instant le RAID 5 pour garantir l'intégrité des don nées n'a
> fonctionné que 6 jours ! joli score ! :-( --

BAARF ! ( http://baarf.com )



Je plussoie : mttdl = mean time to data loss
http://blogs.sun.com/relling/entry/a_story_of_two_mttdl

je ne trouve plus la ref, soit chez ibm soit chez sun, d'un article
expliquant qu'avec raid5 statistiquement on perd des données lors de
la reconstruction, a cause de qq erreurs aléatoires inévitables.

donc vive le raid6 et les backups.

Alain

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists Vous pouvez aussi ajouter le mot
``spam'' dans vos champs "From" et "Reply-To:"

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
yann
Le #19244821
Le Fri, 1 May 2009 08:02:10 +0200 (CEST),
a écrit :

En continuant mes "expériences" voici ce que j'ai constaté :
- avec un noyau 29-1 de sid idem,
- en "virant" mdadm.conf : pas mieux,
- avec le cd d'install de Debian et en passant en recue mode alors le
md2 est visible.

Le problème c'est que lorsque le raid md2 n'est pas reconnu, c'est que
les device /dev/sd[def]1 n'existe pas.

dmesg me donne les informations suivantes (en résumé)
- Driver sd needs upodating
- sda: sda1 sda2 sda3
- sdb: sdb1 sdb2 sdb3
- sdc: sdc1
- sdd: sdd1
- sde: sde1
- sdf: sdf1
- md bind<sdb1>
- md bind<sda1>
- md bind<sdb3>
- md bind<sda3>
- md bind<sdc1>
- raid5: device sdc1 operational raid disk 0
- raid5: not enough operational devices for md2 (3/4 failed)
- raid5: failed to run raid set md2

Je pense à un problème du pilote du sata (MCP55 SATA Controleur ( rev
a3) ... use sata_nv en version 3.5)
Il y a trois instances IRQ 20, IRQ22, IRQ21.

Mais là j'avoue que je sèche et que je ne comprends pas comment e st-ce
possible (idem avec une option d'attente au chargement du noyau) ni
comment le contrer (revenir à une version plus ancienne du noyau
-lenny- ?)

Yann.


--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists Vous pouvez aussi ajouter le mot
``spam'' dans vos champs "From" et "Reply-To:"

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Sylvain Sauvage
Le #19247701
yann, samedi 2 mai 2009, 12:43:59 CEST
[…]
Le problème c'est que lorsque le raid md2 n'est pas reconnu, c'est q ue
les device /dev/sd[def]1 n'existe pas.
[…]



Donc les fichiers /dev disparaissent sans prévenir.
Bizarre.

Je pense à un problème du pilote du sata (MCP55 SATA Controleur (rev
a3) ... use sata_nv en version 3.5)
Il y a trois instances IRQ 20, IRQ22, IRQ21.



Possible.
Peut-être un problème udev.

Mais là j'avoue que je sèche et que je ne comprends pas comment est-ce
possible (idem avec une option d'attente au chargement du noyau) ni
comment le contrer (revenir à une version plus ancienne du noyau
-lenny- ?)



Essaie d’installer une version plus ancienne du noyau.
T’as cherché des rapports de bogue similaires ?

--
Sylvain Sauvage

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists Vous pouvez aussi ajouter le mot
``spam'' dans vos champs "From" et "Reply-To:"

Pour vous DESABONNER, envoyez un message avec comme objet "unsubscribe"
vers
En cas de soucis, contactez EN ANGLAIS
Publicité
Poster une réponse
Anonyme