Twitter iPhone pliant OnePlus 11 PS5 Disney+ Orange Livebox Windows 11

probleme de perfs avec XFS suite

14 réponses
Avatar
Eric Belhomme
Bonjour,

Il y a quelques temps, j'ai eu des problèmes avec une carte RAID 3ware
9650 et un volume RAID6 de 12 disques (en stripes de 256K)
Le volume est formatté en XFS et a été créé avec ces parametres :

meta-data=/dev/mapper/vg_dove-bagpuss_tmp isize=256 agcount=5,
agsize=201326576 blks
= sectsz=512 attr=2
data = bsize=4096 blocks=936378368, imaxpct=5
= sunit=16 swidth=192 blks
naming =version 2 bsize=4096 ascii-ci=0
log =internal bsize=4096 blocks=32768, version=2
= sectsz=512 sunit=16 blks, lazy-count=1
realtime =none extsz=4096 blocks=0, rtextents=

Le serveur est un système Debian amd64 en squeeze.

Durant mes problèmes hardware avec la carte 3ware, le système a freezé à
plusieurs reprises, et il m'a donc été nécessaire de lancer des
xfs_repair à plusieurs reprises...
Depuis, le problème a solutionné par le remplacement de la carte 3ware
par une neuve, et je n'ai plus de crashs du contrôlleur RAID.

Voila pour le contexte... Cela dit, l'affaire n'est pas résolue pour
autant !

En effet, depuis ces problèmes, le système se met inxepliquablement à
ramer fort, et le système de fichier met un temps fou à répondre !
La charge système augmente, les CPU passent leur temps en kernel-land,
bref, le serveur est quasi inutilisable !

- la carte RAID ne remonte aucune alarme, ni anomalie, il n'y a pas de
verify en cours, ou de rebuild, bref, que dalle coté RAID (du moins rien
qui ne puisse se voir avec tw_cli)
- le noyau ne remonte pas de logs non plus (rien dans le dmesg, rien vu
dans /var/log/*)

Je suis pas très à l'aise pour débogger ce genre de troubles sous Linux,
donc tout conseil/méthodologie sera la bienvenue, merci :)

--
Rico

4 réponses

1 2
Avatar
Emmanuel Florac
Le Tue, 09 Aug 2011 07:03:40 +0000, Eric Belhomme a écrit:


Selon toi qu'est ce que j'ai comme compromis ? - un RAID 5 ?



Non, le RAID-5 est obsolète, trop dangereux avec les disques SATA actuels.

- un RAID5 pour le data, couplé à un RAID1 pour le log de XFS ?



Pour des workflow orienté petites écritures, il n'y a que le RAID-10...

Tiens d'ailleurs, dans le cas du log xfs sur un device distinct, c'est
quoi la config optimale pour le log ?



C'est à dire? Si tu écris vraiment beaucoup il peut être utile d'avoir un
log plus grand que le défaut (128 Mo), avec l'inconvénient qu'il ne tient
plus dans le cache du contrôleur. Faudrait que je regarde la faq xfs...

http://xfs.org/index.php/XFS_FAQ



--
L'église est une secte qui a réussi.
Ernest Renan.
Avatar
Eric Belhomme
Le Tue, 09 Aug 2011 21:11:02 +0000, Emmanuel Florac a écrit :

Non, le RAID-5 est obsolète, trop dangereux avec les disques SATA
actuels.



carrément obsolète ? sur quels critères ?

Pour des workflow orienté petites écritures, il n'y a que le RAID-10...



Bon, je n'ai plus qu'à annoncer qu'il va falloir doubler le nombre de
filers en prod ;)

C'est à dire? Si tu écris vraiment beaucoup il peut être utile d'avoir
un log plus grand que le défaut (128 Mo), avec l'inconvénient qu'il ne
tient plus dans le cache du contrôleur. Faudrait que je regarde la faq
xfs...

http://xfs.org/index.php/XFS_FAQ



Oui, pas mal d'écritures : les filers sont attaqués par une ferme de
calcul, et ça génère une quantité assez monstrueuse de données en lecture
*et* écriture


--
Rico
Le pénible fardeau de n'avoir rien à faire.
-+- Nicolas Boileau -+-
Avatar
La Bete des Vosges (Francis Chartier)
Le Wed, 10 Aug 2011 07:11:19 +0000, Eric Belhomme a écrit :

Le Tue, 09 Aug 2011 21:11:02 +0000, Emmanuel Florac a écrit :

Non, le RAID-5 est obsolète, trop dangereux avec les disques SATA
actuels.



carrément obsolète ? sur quels critères ?



Je suis loin de m'y connaître autant qu'Emmanuel mais je dirai qu'avec la
"fiabilité" des disques SATA actuels il y a trop de risques de se
retrouver avec des grappes aux perfs extrèmement dégradées à cause de
disques nazes ou en cours de reconstruction.

http://www.cyberciti.biz/tips/raid5-vs-raid-10-safety-performance.html

http://www.miracleas.com/BAARF/RAID5_versus_RAID10.txt


--
La Bête des Vosges
Avatar
Emmanuel Florac
Le Wed, 10 Aug 2011 07:11:19 +0000, Eric Belhomme a écrit:


carrément obsolète ? sur quels critères ?



Les disques actuels ont un taux d'erreur non corrigeable de 1 bit pour
10^12 à 10^14. En clair : quand tu lis 10 To, par exemple à la
reconstruction d'une grappe après une panne disque, tu es statistiquement
certain de rencontrer une erreur en lecture, donc d'avoir une corruption.

Ensuite il y a la simple probabilité d'avoir une deuxième panne disque
pendant la reconstruction: ces 3 dernières années ça m'est arrivé au
moins une douzaine de fois... Si j'avais été en RAID-5, j'aurais perdu
environ 250 To :).

--
There are only two kinds of languages: the ones people complain about
and the ones nobody uses.
Bjarne Stroustrup
1 2