Twitter iPhone pliant OnePlus 11 PS5 Disney+ Orange Livebox Windows 11

Problème Raid 1 , DD, autre ?

16 réponses
Avatar
Steve
Bonjour,

Sous Debian etch =C3=A0 jour.

Une machine configur=C3=A9e en raid1 avec deux disques durs.

# cat /proc/mdstat
Personalities : [raid1]
md1 : active raid1 hda3[0]
8297472 blocks [2/1] [U_]

md2 : active raid1 hda5[0]
1461760 blocks [2/1] [U_]

md3 : active raid1 hda6[0]
9767424 blocks [2/1] [U_]

md4 : active raid1 hda7[0]
11719296 blocks [2/1] [U_]

md5 : active raid1 hda11[0]
6835520 blocks [2/1] [U_]

md0 : active raid1 hda2[0]
979840 blocks [2/1] [U_]

Il n'utilise que le premier DD. J'ai essay=C3=A9 d'ajouter le second, mais=
=20
r=C3=A9guli=C3=A8rement je me fais jeter apr=C3=A8s le 2e ou 3e md (=C3=A7a=
varie)... =C3=A7a marchait=20
parfaitement avant (avant quoi...?).

Les logs ne montraient rien de particulier (montraient car =C3=A7a a chang=
=C3=A9=20
depuis) :

Oct 28 08:53:27 opossum kernel: hdb: drive_cmd: status=3D0x51 { DriveReady=
=20
SeekComplete Error }
Oct 28 08:53:27 opossum kernel: hdb: drive_cmd: error=3D0x10 {=20
SectorIdNotFound }, LBAsect=3D12734209, sector=3D0
Oct 28 08:53:27 opossum kernel: ide: failed opcode was: 0xb0


Manifestement le 2e DD pr=C3=A9sente des probl=C3=A8mes. J'ai donc effectu=
=C3=A9 quelques=20
tests avec smartmontools qui montrent effectivement pleins d'erreurs (on en=
=20
est =C3=A0 278).=20

Apr=C3=A8s avoir sauvegard=C3=A9 mes donn=C3=A9es sur DVD, j'ai t=C3=A9l=C3=
=A9charg=C3=A9 le Ultimate Boot=20
CD qui permet de tester les DD avec les outils appropri=C3=A9s sans risquer=
de=20
toucher aux donn=C3=A9es.

Et l=C3=A0, surprise, tant le test court que le long ne montrent *aucune* e=
rreur !=20
Apr=C3=A8s avoir red=C3=A9marr=C3=A9 la machine j'obtiens les erreurs ci-de=
ssus. Comment un=20
outil "d=C3=A9di=C3=A9" peut-il se tromper =C3=A0 ce point par rapport au n=
oyau linux (pas=20
de troll hein!) ?

J'en suis donc l=C3=A0, avec une machine qui refusait parfois de d=C3=A9mar=
rer quand=20
elle =C3=A9tait chez son propri=C3=A9taire mais pas chez moi. Je me demande=
au passage=20
si ce ne sont pas les conditions particuli=C3=A8res chez lui (froid, humidi=
t=C3=A9) qui=20
seraient la source de ce probl=C3=A8me.

Toute piste est la bienvenue.

Excellent dimanche.

=2D-=20
steve

10 réponses

1 2
Avatar
Jean-Yves F. Barbier
Steve a écrit :
Bonjour,


.........
Il n'utilise que le premier DD. J'ai essayé d'ajouter le second, mais
régulièrement je me fais jeter après le 2e ou 3e md (ça varie). .. ça marchait
parfaitement avant (avant quoi...?).

Les logs ne montraient rien de particulier (montraient car ça a chang é
depuis) :

Oct 28 08:53:27 opossum kernel: hdb: drive_cmd: status=0x51 { DriveRe ady
SeekComplete Error }
Oct 28 08:53:27 opossum kernel: hdb: drive_cmd: error=0x10 {
SectorIdNotFound }, LBAsect734209, sector=0
Oct 28 08:53:27 opossum kernel: ide: failed opcode was: 0xb0



le disque 1 des raid-arrays est en train de claquer

Manifestement le 2e DD présente des problèmes. J'ai donc effectué quelques
tests avec smartmontools qui montrent effectivement pleins d'erreurs (o n en
est à 278).

Après avoir sauvegardé mes données sur DVD, j'ai téléchargé le Ultimate Boot
CD qui permet de tester les DD avec les outils appropriés sans risque r de
toucher aux données.

Et là, surprise, tant le test court que le long ne montrent *aucune* erreur !
Après avoir redémarré la machine j'obtiens les erreurs ci-dessus. Comment un
outil "dédié" peut-il se tromper à ce point par rapport au noyau linux (pas
de troll hein!) ?



vi, mais qu'as-tu vérifié? (les md ou les hd ?)

J'en suis donc là, avec une machine qui refusait parfois de démarre r quand
elle était chez son propriétaire mais pas chez moi. Je me demande a u passage
si ce ne sont pas les conditions particulières chez lui (froid, humid ité) qui
seraient la source de ce problème.



plutôt des micro-coupures: vu qu'un hd n'a que 3400~4000 cycles on/off devant
lui, chaque micro-coupure diminue son capital vie (PB vu chez moi et chez un
archi installé à la campagne: il avait pèté un hd de chaque marqu e!, après
"interrogatoire" il s'avérait que ses ampoules d'éclairage avaient so uvent des
fluctuations d'intensité <=> onduleur => PB définitivement règl é.)

par ailleurs, mon expérience demontre que ce type de PB arrive plus fré quemment
avec des hdz de marque seagate (j'en ai un qui ne fait plus ce type de PB , mais
qui met 4J (!) à formatter avec un 'mke2fs -c -c')

Toute piste est la bienvenue.



ben c'est plutôt une piste noire :(
tu peux essayer un:
mke2fs -c -c -m0 -v /dev/partitionkiplantesurhdkimarchpô
puis essayer de réintégrer les partitions dans les md.

ca a peu de chance de fonctionner, par ce que le md considère que si un e erreur
intervient sur un seul des disques, alors il faut faire un kick out de ce hd.

Donc, la solution la plus rapide consisterait à faire un (possible, pui sque tu
as sauvegardé tes données):
mke2fs -c -c -m0 -v /dev/mdX
ce qui marqueras les secteurs défectueux *pour les 2 hdz de l'array*

Enfin, la solution raisonnable et rapide (mais pas bon marché) serait d e
directement changer le hd incriminé, en veillant bien, si CHS est diffé rent
de l'original, à ce que ses partitions soient strictement égales ou s upérieures
en taille; de façon à ce que son ajout ne soit pas rejeté par mdadm . Puis
laisser faire la syncho pour que les 2 HDz soient identiques, puis restau rer
tes données.

Excellent dimanche.



ça risque d'être un dimanche chargé pour toi ;-)

JY
--
The Preacher, the Politician, the Teacher,
Were each of them once a kiddie.
A child, indeed, is a wonderful creature.
Do I want one? God Forbiddie!
-- Ogden Nash
Avatar
Hugues LARRIVE
This is an OpenPGP/MIME signed message (RFC 2440 and 3156)
--------------enigFE3F16C363A8E95961487F1A
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: quoted-printable

Steve a écrit :
Bonjour,

Sous Debian etch à jour.

Une machine configurée en raid1 avec deux disques durs.

# cat /proc/mdstat
Personalities : [raid1]
md1 : active raid1 hda3[0]
8297472 blocks [2/1] [U_]

md2 : active raid1 hda5[0]
1461760 blocks [2/1] [U_]

md3 : active raid1 hda6[0]
9767424 blocks [2/1] [U_]

md4 : active raid1 hda7[0]
11719296 blocks [2/1] [U_]

md5 : active raid1 hda11[0]
6835520 blocks [2/1] [U_]

md0 : active raid1 hda2[0]
979840 blocks [2/1] [U_]

Il n'utilise que le premier DD. J'ai essayé d'ajouter le second, m ais
régulièrement je me fais jeter après le 2e ou 3e md (à §a varie)... ça marchait
parfaitement avant (avant quoi...?).

Les logs ne montraient rien de particulier (montraient car ça a ch angé
depuis) :

Oct 28 08:53:27 opossum kernel: hdb: drive_cmd: status=0x51 { DriveRe ady
SeekComplete Error }
Oct 28 08:53:27 opossum kernel: hdb: drive_cmd: error=0x10 {
SectorIdNotFound }, LBAsect734209, sector=0
Oct 28 08:53:27 opossum kernel: ide: failed opcode was: 0xb0


Manifestement le 2e DD présente des problèmes. J'ai donc effe ctué quelques
tests avec smartmontools qui montrent effectivement pleins d'erreurs (o n en
est à 278).




Quels tests précisément ?
Peux-tu donner le résultat de smartctl -a /dev/hdb et hdparm/dev/hdb ?
Après avoir sauvegardé mes données sur DVD, j'ai té léchargé le Ultimate Boot
CD qui permet de tester les DD avec les outils appropriés sans ris quer de
toucher aux données.

Et là, surprise, tant le test court que le long ne montrent *aucun e* erreur !
Après avoir redémarré la machine j'obtiens les erreurs c i-dessus. Comment un
outil "dédié" peut-il se tromper à ce point par rapport au noyau linux (pas
de troll hein!) ?




Les conditions ne sont pas les mêmes, seul un disque est testé /
utilisé, probablement pas de dma, etc.
J'en suis donc là, avec une machine qui refusait parfois de dé marrer quand
elle était chez son propriétaire mais pas chez moi. Je me dem ande au passage
si ce ne sont pas les conditions particulières chez lui (froid, hu midité) qui
seraient la source de ce problème.

Toute piste est la bienvenue.




Ça peut venir de plein de choses, une nappe défectueuse peut pr ovoquer
des erreurs quand les 2 disques travaillent simultanément, un problà ¨me
de ram peut provoquer des erreurs avec le dma, une faiblesse
d'alimentation peut provoquer un chute de tension qui entraîne le
redémarrage du disque dur (ça s'entend en général)...
Essayer de faire les test sous linux depuis un live CD, activer /
désactiver le dma, changer de nappe, de contrôleur, inverser le s disques
sur la nappe peut aider à trouver la cause du problème.
Excellent dimanche.




Bon courage.


--------------enigFE3F16C363A8E95961487F1A
Content-Type: application/pgp-signature; name="signature.asc"
Content-Description: OpenPGP digital signature
Content-Disposition: attachment; filename="signature.asc"

-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.4.6 (GNU/Linux)

iD8DBQFHJHZCNdTZuHWpgVIRAs6fAJ42TNY8/Z46AiK+QKukpSE/PS5qTACeNYOj
gh+EiBueecm172gsX+yOkeo =cPad
-----END PGP SIGNATURE-----

--------------enigFE3F16C363A8E95961487F1A--


--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Steve
Le dimanche 28 octobre 2007 09:39, Jean-Yves F. Barbier a écrit :
Steve a écrit :
> Bonjour,

.........

> Il n'utilise que le premier DD. J'ai essayé d'ajouter le second, mais
> régulièrement je me fais jeter après le 2e ou 3e md (ça varie). .. ça
> marchait parfaitement avant (avant quoi...?).
>
> Les logs ne montraient rien de particulier (montraient car ça a chang é
> depuis) :
>
> Oct 28 08:53:27 opossum kernel: hdb: drive_cmd: status=0x51 { DriveRe ady
> SeekComplete Error }
> Oct 28 08:53:27 opossum kernel: hdb: drive_cmd: error=0x10 {
> SectorIdNotFound }, LBAsect734209, sector=0
> Oct 28 08:53:27 opossum kernel: ide: failed opcode was: 0xb0

le disque 1 des raid-arrays est en train de claquer



amen, il est mort ;-)

Quelques minutes après avoir envoyé mon courriel, j'ai voulu redémarr er la
machine, et les deux DD n'étaient plus reconnu par le BIOS. J'ai enlevé hdb
et le tout est reparti comme en l'an 40.


> Manifestement le 2e DD présente des problèmes. J'ai donc effectué
> quelques tests avec smartmontools qui montrent effectivement pleins
> d'erreurs (on en est à 278).
>
> Après avoir sauvegardé mes données sur DVD, j'ai téléchargé le Ultimate
> Boot CD qui permet de tester les DD avec les outils appropriés sans
> risquer de toucher aux données.
>
> Et là, surprise, tant le test court que le long ne montrent *aucune*
> erreur ! Après avoir redémarré la machine j'obtiens les erreurs
> ci-dessus. Comment un outil "dédié" peut-il se tromper à ce point par
> rapport au noyau linux (pas de troll hein!) ?

vi, mais qu'as-tu vérifié? (les md ou les hd ?)



hd


> J'en suis donc là, avec une machine qui refusait parfois de démarrer
> quand elle était chez son propriétaire mais pas chez moi. Je me dem ande
> au passage si ce ne sont pas les conditions particulières chez lui
> (froid, humidité) qui seraient la source de ce problème.

plutôt des micro-coupures: vu qu'un hd n'a que 3400~4000 cycles on/off
devant lui, chaque micro-coupure diminue son capital vie (PB vu chez moi et
chez un archi installé à la campagne: il avait pèté un hd de chaq ue
marque!, après "interrogatoire" il s'avérait que ses ampoules d'écl airage
avaient souvent des fluctuations d'intensité <=> onduleur => PB
définitivement règlé.)



ça cadre parfaitement avec la situation du proprio de la machine : pêch erie
avec système électrique défaillant ..

par ailleurs, mon expérience demontre que ce type de PB arrive plus
fréquemment avec des hdz de marque seagate (j'en ai un qui ne fait plus ce
type de PB, mais qui met 4J (!) à formatter avec un 'mke2fs -c -c')



là c'est un IBM datant de 2003

> Toute piste est la bienvenue.

ben c'est plutôt une piste noire :(
tu peux essayer un:
mke2fs -c -c -m0 -v /dev/partitionkiplantesurhdkimarchpô
puis essayer de réintégrer les partitions dans les md.

ca a peu de chance de fonctionner, par ce que le md considère que si une
erreur intervient sur un seul des disques, alors il faut faire un kick out
de ce hd.

Donc, la solution la plus rapide consisterait à faire un (possible, pui sque
tu as sauvegardé tes données):
mke2fs -c -c -m0 -v /dev/mdX
ce qui marqueras les secteurs défectueux *pour les 2 hdz de l'array*

Enfin, la solution raisonnable et rapide (mais pas bon marché) serait de
directement changer le hd incriminé, en veillant bien, si CHS est diff érent
de l'original, à ce que ses partitions soient strictement égales ou
supérieures en taille;



c'est que je vais faire.

de façon à ce que son ajout ne soit pas rejeté par
mdadm. Puis laisser faire la syncho pour que les 2 HDz soient identiques,
puis restaurer tes données.



La question est maintenant de savoir si je peux acheter un dd sata vu qu'il y
a 2 connecteurs et de faire un raid1 avec hda et sda ? et ensuite de passer à
2 sata sda et sdb. Une idée ?

> Excellent dimanche.

ça risque d'être un dimanche chargé pour toi ;-)



Et en plus il y a une heure de plus ;-)

JY



Merci et merci aussi à Hugues pour sa réponse (à laquelle je ne rép ondrai pas,
qu'il m'excuse, pour des raisons évidentes ;-))

--
steve
Avatar
Jean-Yves F. Barbier
Steve a écrit :
.......
Quelques minutes après avoir envoyé mon courriel, j'ai voulu redé marrer la
machine, et les deux DD n'étaient plus reconnu par le BIOS. J'ai enle vé hdb
et le tout est reparti comme en l'an 40.



BTW, pour des raisons de bande passante, et de sécurité (si l'IDE cla que), on
ne met jamais les disques d'un raid array sur la même nappe

--
The difference between this school and a cactus plant is that the
cactus has the pricks on the outside.
Avatar
Jean-Yves F. Barbier
Steve a écrit :
par ailleurs, mon expérience demontre que ce type de PB arrive plus
fréquemment avec des hdz de marque seagate (j'en ai un qui ne fait p lus ce
type de PB, mais qui met 4J (!) à formatter avec un 'mke2fs -c -c')



là c'est un IBM datant de 2003



beuhh, mauvaise année pour les HDz IBM, on en était à 68% de défe ctueux.

La question est maintenant de savoir si je peux acheter un dd sata vu q u'il y
a 2 connecteurs et de faire un raid1 avec hda et sda ? et ensuite de pa sser à
2 sata sda et sdb. Une idée ?



jamais testé, mais je ne vois absolument rien qui s'y oppose

JY
--
What on earth would a man do with himself if something did not stand in h is way?
-- H. G. Wells
Avatar
Steve
Le dimanche 28 octobre 2007 15:55, Jean-Yves F. Barbier a écrit :
Steve a écrit :
.......

> Quelques minutes après avoir envoyé mon courriel, j'ai voulu redé marrer
> la machine, et les deux DD n'étaient plus reconnu par le BIOS. J'ai
> enlevé hdb et le tout est reparti comme en l'an 40.

BTW, pour des raisons de bande passante, et de sécurité (si l'IDE cla que),
on ne met jamais les disques d'un raid array sur la même nappe



Merci pour le conseil.

--
steve
Avatar
Steve
Le dimanche 28 octobre 2007 15:58, Jean-Yves F. Barbier a écrit :
Steve a écrit :
>> par ailleurs, mon expérience demontre que ce type de PB arrive plus
>> fréquemment avec des hdz de marque seagate (j'en ai un qui ne fait p lus
>> ce type de PB, mais qui met 4J (!) à formatter avec un 'mke2fs -c -c ')
>
> là c'est un IBM datant de 2003

beuhh, mauvaise année pour les HDz IBM, on en était à 68% de défe ctueux.



il a quand meme tenu 3-4 ans, pas mal non.


> La question est maintenant de savoir si je peux acheter un dd sata vu
> qu'il y a 2 connecteurs et de faire un raid1 avec hda et sda ? et ensui te
> de passer à 2 sata sda et sdb. Une idée ?

jamais testé, mais je ne vois absolument rien qui s'y oppose



Excellente nouvelle, je vais donc faire ca.

JY



--
steve
Avatar
Sil
Steve a écrit :
là c'est un IBM datant de 2003



IBM 60GXP ?
J'en ai eu un moi aussi :-( .


--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.net/?DebianFrench
Vous pouvez aussi ajouter le mot ``spam'' dans vos champs "From" et
"Reply-To:"

To UNSUBSCRIBE, email to
with a subject of "unsubscribe". Trouble? Contact
Avatar
Steve
Le lundi 29 octobre 2007 08:42, Sil a écrit :
Steve a écrit :
> là c'est un IBM datant de 2003

IBM 60GXP ?
J'en ai eu un moi aussi :-( .



Apparemment, il a laisse des traces .. :-)

--
steve
Avatar
Tekpi
Bonjour

Je pense qu'il faut changer le disque dur et remonter ton raid.



steve-58 wrote:

Bonjour,

Sous Debian etch à jour.

Une machine configurée en raid1 avec deux disques durs.

# cat /proc/mdstat
Personalities : [raid1]
md1 : active raid1 hda3[0]
8297472 blocks [2/1] [U_]

md2 : active raid1 hda5[0]
1461760 blocks [2/1] [U_]

md3 : active raid1 hda6[0]
9767424 blocks [2/1] [U_]

md4 : active raid1 hda7[0]
11719296 blocks [2/1] [U_]

md5 : active raid1 hda11[0]
6835520 blocks [2/1] [U_]

md0 : active raid1 hda2[0]
979840 blocks [2/1] [U_]

Il n'utilise que le premier DD. J'ai essayé d'ajouter le second, mai s
régulièrement je me fais jeter après le 2e ou 3e md (à §a varie)... ça
marchait
parfaitement avant (avant quoi...?).

Les logs ne montraient rien de particulier (montraient car ça a chan gé
depuis) :

Oct 28 08:53:27 opossum kernel: hdb: drive_cmd: status=0x51 { DriveRead y
SeekComplete Error }
Oct 28 08:53:27 opossum kernel: hdb: drive_cmd: error=0x10 {
SectorIdNotFound }, LBAsect734209, sector=0
Oct 28 08:53:27 opossum kernel: ide: failed opcode was: 0xb0


Manifestement le 2e DD présente des problèmes. J'ai donc effect ué quelques
tests avec smartmontools qui montrent effectivement pleins d'erreurs (on
en
est à 278).

Après avoir sauvegardé mes données sur DVD, j'ai tél échargé le Ultimate
Boot
CD qui permet de tester les DD avec les outils appropriés sans risqu er de
toucher aux données.

Et là, surprise, tant le test court que le long ne montrent *aucune*
erreur !
Après avoir redémarré la machine j'obtiens les erreurs ci- dessus. Comment
un
outil "dédié" peut-il se tromper à ce point par rapport au noyau linux
(pas
de troll hein!) ?

J'en suis donc là, avec une machine qui refusait parfois de dém arrer quand
elle était chez son propriétaire mais pas chez moi. Je me deman de au
passage
si ce ne sont pas les conditions particulières chez lui (froid, humi dité)
qui
seraient la source de ce problème.

Toute piste est la bienvenue.

Excellent dimanche.

--
steve






--
View this message in context: http://www.nabble.com/Probl%C3%A8me-Raid-1-%2 C-DD%2C-autre---tf4706049.html#a13547956
Sent from the debian-user-french mailing list archive at Nabble.com.
1 2