Il y a quelques temps, j'ai eu des problèmes avec une carte RAID 3ware
9650 et un volume RAID6 de 12 disques (en stripes de 256K)
Le volume est formatté en XFS et a été créé avec ces parametres :
Le serveur est un système Debian amd64 en squeeze.
Durant mes problèmes hardware avec la carte 3ware, le système a freezé à
plusieurs reprises, et il m'a donc été nécessaire de lancer des
xfs_repair à plusieurs reprises...
Depuis, le problème a solutionné par le remplacement de la carte 3ware
par une neuve, et je n'ai plus de crashs du contrôlleur RAID.
Voila pour le contexte... Cela dit, l'affaire n'est pas résolue pour
autant !
En effet, depuis ces problèmes, le système se met inxepliquablement à
ramer fort, et le système de fichier met un temps fou à répondre !
La charge système augmente, les CPU passent leur temps en kernel-land,
bref, le serveur est quasi inutilisable !
- la carte RAID ne remonte aucune alarme, ni anomalie, il n'y a pas de
verify en cours, ou de rebuild, bref, que dalle coté RAID (du moins rien
qui ne puisse se voir avec tw_cli)
- le noyau ne remonte pas de logs non plus (rien dans le dmesg, rien vu
dans /var/log/*)
Je suis pas très à l'aise pour débogger ce genre de troubles sous Linux,
donc tout conseil/méthodologie sera la bienvenue, merci :)
Le Tue, 09 Aug 2011 07:03:40 +0000, Eric Belhomme a écrit:
Selon toi qu'est ce que j'ai comme compromis ? - un RAID 5 ?
Non, le RAID-5 est obsolète, trop dangereux avec les disques SATA actuels.
- un RAID5 pour le data, couplé à un RAID1 pour le log de XFS ?
Pour des workflow orienté petites écritures, il n'y a que le RAID-10...
Tiens d'ailleurs, dans le cas du log xfs sur un device distinct, c'est quoi la config optimale pour le log ?
C'est à dire? Si tu écris vraiment beaucoup il peut être utile d'avoir un log plus grand que le défaut (128 Mo), avec l'inconvénient qu'il ne tient plus dans le cache du contrôleur. Faudrait que je regarde la faq xfs...
http://xfs.org/index.php/XFS_FAQ
-- L'église est une secte qui a réussi. Ernest Renan.
Le Tue, 09 Aug 2011 07:03:40 +0000, Eric Belhomme a écrit:
Selon toi qu'est ce que j'ai comme compromis ? - un RAID 5 ?
Non, le RAID-5 est obsolète, trop dangereux avec les disques SATA actuels.
- un RAID5 pour le data, couplé à un RAID1 pour le log de XFS ?
Pour des workflow orienté petites écritures, il n'y a que le RAID-10...
Tiens d'ailleurs, dans le cas du log xfs sur un device distinct, c'est
quoi la config optimale pour le log ?
C'est à dire? Si tu écris vraiment beaucoup il peut être utile d'avoir un
log plus grand que le défaut (128 Mo), avec l'inconvénient qu'il ne tient
plus dans le cache du contrôleur. Faudrait que je regarde la faq xfs...
http://xfs.org/index.php/XFS_FAQ
--
L'église est une secte qui a réussi.
Ernest Renan.
Le Tue, 09 Aug 2011 07:03:40 +0000, Eric Belhomme a écrit:
Selon toi qu'est ce que j'ai comme compromis ? - un RAID 5 ?
Non, le RAID-5 est obsolète, trop dangereux avec les disques SATA actuels.
- un RAID5 pour le data, couplé à un RAID1 pour le log de XFS ?
Pour des workflow orienté petites écritures, il n'y a que le RAID-10...
Tiens d'ailleurs, dans le cas du log xfs sur un device distinct, c'est quoi la config optimale pour le log ?
C'est à dire? Si tu écris vraiment beaucoup il peut être utile d'avoir un log plus grand que le défaut (128 Mo), avec l'inconvénient qu'il ne tient plus dans le cache du contrôleur. Faudrait que je regarde la faq xfs...
http://xfs.org/index.php/XFS_FAQ
-- L'église est une secte qui a réussi. Ernest Renan.
Eric Belhomme
Le Tue, 09 Aug 2011 21:11:02 +0000, Emmanuel Florac a écrit :
Non, le RAID-5 est obsolète, trop dangereux avec les disques SATA actuels.
carrément obsolète ? sur quels critères ?
Pour des workflow orienté petites écritures, il n'y a que le RAID-10...
Bon, je n'ai plus qu'à annoncer qu'il va falloir doubler le nombre de filers en prod ;)
C'est à dire? Si tu écris vraiment beaucoup il peut être utile d'avoir un log plus grand que le défaut (128 Mo), avec l'inconvénient qu'il ne tient plus dans le cache du contrôleur. Faudrait que je regarde la faq xfs...
http://xfs.org/index.php/XFS_FAQ
Oui, pas mal d'écritures : les filers sont attaqués par une ferme de calcul, et ça génère une quantité assez monstrueuse de données en lecture *et* écriture
-- Rico Le pénible fardeau de n'avoir rien à faire. -+- Nicolas Boileau -+-
Le Tue, 09 Aug 2011 21:11:02 +0000, Emmanuel Florac a écrit :
Non, le RAID-5 est obsolète, trop dangereux avec les disques SATA
actuels.
carrément obsolète ? sur quels critères ?
Pour des workflow orienté petites écritures, il n'y a que le RAID-10...
Bon, je n'ai plus qu'à annoncer qu'il va falloir doubler le nombre de
filers en prod ;)
C'est à dire? Si tu écris vraiment beaucoup il peut être utile d'avoir
un log plus grand que le défaut (128 Mo), avec l'inconvénient qu'il ne
tient plus dans le cache du contrôleur. Faudrait que je regarde la faq
xfs...
http://xfs.org/index.php/XFS_FAQ
Oui, pas mal d'écritures : les filers sont attaqués par une ferme de
calcul, et ça génère une quantité assez monstrueuse de données en lecture
*et* écriture
--
Rico
Le pénible fardeau de n'avoir rien à faire.
-+- Nicolas Boileau -+-
Le Tue, 09 Aug 2011 21:11:02 +0000, Emmanuel Florac a écrit :
Non, le RAID-5 est obsolète, trop dangereux avec les disques SATA actuels.
carrément obsolète ? sur quels critères ?
Pour des workflow orienté petites écritures, il n'y a que le RAID-10...
Bon, je n'ai plus qu'à annoncer qu'il va falloir doubler le nombre de filers en prod ;)
C'est à dire? Si tu écris vraiment beaucoup il peut être utile d'avoir un log plus grand que le défaut (128 Mo), avec l'inconvénient qu'il ne tient plus dans le cache du contrôleur. Faudrait que je regarde la faq xfs...
http://xfs.org/index.php/XFS_FAQ
Oui, pas mal d'écritures : les filers sont attaqués par une ferme de calcul, et ça génère une quantité assez monstrueuse de données en lecture *et* écriture
-- Rico Le pénible fardeau de n'avoir rien à faire. -+- Nicolas Boileau -+-
La Bete des Vosges (Francis Chartier)
Le Wed, 10 Aug 2011 07:11:19 +0000, Eric Belhomme a écrit :
Le Tue, 09 Aug 2011 21:11:02 +0000, Emmanuel Florac a écrit :
Non, le RAID-5 est obsolète, trop dangereux avec les disques SATA actuels.
carrément obsolète ? sur quels critères ?
Je suis loin de m'y connaître autant qu'Emmanuel mais je dirai qu'avec la "fiabilité" des disques SATA actuels il y a trop de risques de se retrouver avec des grappes aux perfs extrèmement dégradées à cause de disques nazes ou en cours de reconstruction.
Le Wed, 10 Aug 2011 07:11:19 +0000, Eric Belhomme a écrit :
Le Tue, 09 Aug 2011 21:11:02 +0000, Emmanuel Florac a écrit :
Non, le RAID-5 est obsolète, trop dangereux avec les disques SATA
actuels.
carrément obsolète ? sur quels critères ?
Je suis loin de m'y connaître autant qu'Emmanuel mais je dirai qu'avec la
"fiabilité" des disques SATA actuels il y a trop de risques de se
retrouver avec des grappes aux perfs extrèmement dégradées à cause de
disques nazes ou en cours de reconstruction.
Le Wed, 10 Aug 2011 07:11:19 +0000, Eric Belhomme a écrit :
Le Tue, 09 Aug 2011 21:11:02 +0000, Emmanuel Florac a écrit :
Non, le RAID-5 est obsolète, trop dangereux avec les disques SATA actuels.
carrément obsolète ? sur quels critères ?
Je suis loin de m'y connaître autant qu'Emmanuel mais je dirai qu'avec la "fiabilité" des disques SATA actuels il y a trop de risques de se retrouver avec des grappes aux perfs extrèmement dégradées à cause de disques nazes ou en cours de reconstruction.
Le Wed, 10 Aug 2011 07:11:19 +0000, Eric Belhomme a écrit:
carrément obsolète ? sur quels critères ?
Les disques actuels ont un taux d'erreur non corrigeable de 1 bit pour 10^12 à 10^14. En clair : quand tu lis 10 To, par exemple à la reconstruction d'une grappe après une panne disque, tu es statistiquement certain de rencontrer une erreur en lecture, donc d'avoir une corruption.
Ensuite il y a la simple probabilité d'avoir une deuxième panne disque pendant la reconstruction: ces 3 dernières années ça m'est arrivé au moins une douzaine de fois... Si j'avais été en RAID-5, j'aurais perdu environ 250 To :).
-- There are only two kinds of languages: the ones people complain about and the ones nobody uses. Bjarne Stroustrup
Le Wed, 10 Aug 2011 07:11:19 +0000, Eric Belhomme a écrit:
carrément obsolète ? sur quels critères ?
Les disques actuels ont un taux d'erreur non corrigeable de 1 bit pour
10^12 à 10^14. En clair : quand tu lis 10 To, par exemple à la
reconstruction d'une grappe après une panne disque, tu es statistiquement
certain de rencontrer une erreur en lecture, donc d'avoir une corruption.
Ensuite il y a la simple probabilité d'avoir une deuxième panne disque
pendant la reconstruction: ces 3 dernières années ça m'est arrivé au
moins une douzaine de fois... Si j'avais été en RAID-5, j'aurais perdu
environ 250 To :).
--
There are only two kinds of languages: the ones people complain about
and the ones nobody uses.
Bjarne Stroustrup
Le Wed, 10 Aug 2011 07:11:19 +0000, Eric Belhomme a écrit:
carrément obsolète ? sur quels critères ?
Les disques actuels ont un taux d'erreur non corrigeable de 1 bit pour 10^12 à 10^14. En clair : quand tu lis 10 To, par exemple à la reconstruction d'une grappe après une panne disque, tu es statistiquement certain de rencontrer une erreur en lecture, donc d'avoir une corruption.
Ensuite il y a la simple probabilité d'avoir une deuxième panne disque pendant la reconstruction: ces 3 dernières années ça m'est arrivé au moins une douzaine de fois... Si j'avais été en RAID-5, j'aurais perdu environ 250 To :).
-- There are only two kinds of languages: the ones people complain about and the ones nobody uses. Bjarne Stroustrup