La + grosse panne d'OVH de tous les temps

Le
Olivier Masson
Ouah !

Bon, moi ce que j'aimerais surtout comprendre, c'est ça :
"En tout, sur 90plan nous avons 16 serveurs de stockage. L'un
de ce serveurs de stockage a été touché. Oui il s'agit d'un
netapp avec 28 disques où nous avons une tolérance de panne
de 2 disques (le serveur fonctionne même s'il a perdu 2 disques
et ceci grâce au raid). Dans notre cas, après le reboot du serveur,
3 disques se sont déclarés en panne et le raid a été rendu
inopérationel.

Sur ce serveur sont hébergés, nos clients historiques de 90plan
à savoir les plus anciens sites de 90plan. En tout environ 10000
sites. Sur ces 10000 sites, nous avons un backup de la semaine sur
1500 sites environ puis des backups de plus en plus anciens
jusqu'au mois d'avril où nous avons l'ensemble de 10000 sites."

La redondance de 28 disques se fait sur seulement 2 disques ?! Et, par
malchance, sur 28 disques, 3 tombent en panne dont 2 sont ceux de la
redondance ?!

Ce que je ne comprends pas non plus : il y a UN (1) serveur pour 10000
sites ? (c'est peut-être possible avec un quadri-Xeon Quad à 4 GHz avec
64 Go de RAM :))
Vidéos High-Tech et Jeu Vidéo
Téléchargements
Vos réponses Page 1 / 2
Gagnez chaque mois un abonnement Premium avec GNT : Inscrivez-vous !
Trier par : date / pertinence
patpro ~ Patrick Proniewski
Le #163844
In article Olivier Masson
La redondance de 28 disques se fait sur seulement 2 disques ?!


non, la tolérance de panne, pas la redondance.
C'est probablement du RAID 6.

Et, par
malchance, sur 28 disques, 3 tombent en panne dont 2 sont ceux de la
redondance ?!


non, 3 disques, n'importe les quels. Le problème dans ces cas de figure,
c'est que les disques font souvent partie d'une même série de
fabrication. Donc les durées de vie sont comparables.

Ce que je ne comprends pas non plus : il y a UN (1) serveur pour 10000
sites ? (c'est peut-être possible avec un quadri-Xeon Quad à 4 GHz avec
64 Go de RAM :))


sûrement moins que ça, c'est que le serveur de fichiers hein...

patpro

--
http://www.patpro.net/

LJVD
Le #165389
In article Olivier Masson
La redondance de 28 disques se fait sur seulement 2 disques ?!


non, la tolérance de panne, pas la redondance.
C'est probablement du RAID 6.


J'ai un doute sur le Raid6,
je parirais plutot sur du Raid 3 ou 4 ... une bière, un schweppes?
http://fr.wikipedia.org/wiki/RAID_%28informatique%29

Extrait :
Comment le RAID peut vous trahir

Le RAID a tendance à rendre les utilisateurs trop confiants. Cet excè s
de confiance en une technologie très robuste et très fiable en appare nce
a entrainé de nombreux désastres. Multiplier le nombre de disques
multiplie les risques de panne

Ce que je ne comprends pas non plus : il y a UN (1) serveur pour 10000
sites ? (c'est peut-être possible avec un quadri-Xeon Quad à 4 GHz avec
64 Go de RAM :))
sûrement moins que ça, c'est que le serveur de fichiers hein...

+1


http://www.doyouschweppes.com/

LJVD


patpro ~ Patrick Proniewski
Le #165388
In article LJVD
In article Olivier Masson
La redondance de 28 disques se fait sur seulement 2 disques ?!


non, la tolérance de panne, pas la redondance.
C'est probablement du RAID 6.


J'ai un doute sur le Raid6,


c'était un exemple de RAID qui survit a la perte de deux disques, mais
pas de trois.

je parirais plutot sur du Raid 3 ou 4 ...


nop, les RAID 3 et 4 meurent si ils perdent plus d'un disque.

Mais bon, on peut toujours conjecturer à l'infini. Si ça se trouve
c'était un raid 5+0 (qui peut perdre un disque de chaque coté du
striping, mais pas un de plus).


patpro

--
http://www.patpro.net/



Christophe Baegert
Le #165387
Et puis avoir plusieurs disques capables de tomber en panne avant la perte
du RAID c'est bien, mais si on ne remplace pas tout de suite le premier
disque qui tombe en panne, on retombe dans le cas "1 disque en panne maxi".
Olivier B.
Le #165386
On Fri, 23 Nov 2007 13:21:09 +0100, patpro ~ Patrick Proniewski

non, 3 disques, n'importe les quels. Le problème dans ces cas de figure,
c'est que les disques font souvent partie d'une même série de
fabrication. Donc les durées de vie sont comparables.


a noter que certains disques ne repartent pas à cause d'un enroulement
hs sur le moteur de plateau ce qui ne l'empeche pas de tourner mais de
se mettre en rotation, en l'ouvrant et le lancant à la main ça le fait
parfois, le temps qu'un autre se reconstruise, le probleme c'est
d'avoir une carte ou rallonge selon le chassi.


--
http://olivier.2a.free.fr/
pas de turlututu. apres l'@robase

Olivier Masson
Le #165385

non, 3 disques, n'importe les quels. Le problème dans ces cas de figure,
c'est que les disques font souvent partie d'une même série de
fabrication. Donc les durées de vie sont comparables.



Ah ok. Je pensais bêtement qu'en RAID5, plus on avait de disques, plus
on pouvait en perdre (puisque je n'ai jamais utilisé RAID sur plus de 3
disques.)
Pour le coup, je trouve plus ça si terrible le RAID5 (je dis RAID5, mais
je ne sais pas ce qu'il utilise.)

Ce que je ne comprends pas non plus : il y a UN (1) serveur pour 10000
sites ? (c'est peut-être possible avec un quadri-Xeon Quad à 4 GHz avec
64 Go de RAM :))


sûrement moins que ça, c'est que le serveur de fichiers hein...



Ah oui, "serveur de stockage" :D
Merci.

PS : pour info, ils n'avaient pas de backup récent. Ils ont donc
restauré des sauvegardes... d'avril ! Sans, bien évidemment, en parler
aux clients. Mais comme ils sont grands princes, ils filent 4 mois
d'hébergement (ça concerne les 90Plan et à condition de remplir leur
formulaire.)


Jean-Dominique
Le #165384
patpro ~ Patrick Proniewski wrote:



nop, les RAID 3 et 4 meurent si ils perdent plus d'un disque.

Mais bon, on peut toujours conjecturer à l'infini. Si ça se trouve
c'était un raid 5+0 (qui peut perdre un disque de chaque coté du
striping, mais pas un de plus).


C'est un RAID DP ( double parity) made in netapp dérivé du raid6. Voici
une documentation qui explique le fonctionnement de ce raid
http://www.netapp.com/library/tr/3298.pdf (c'est en anglais).

Voici une petite comparaison des différents raid fait par netapp.

http://www.storevault.com/downloads/WP_RAID_062606.pdf

--

Jean-Dominique

mon blog à moi : http://blog.c0ma.org

Snarf
Le #165344
On 2007-11-23, Martin Lafaix
On 2007-11-23, Olivier Masson
La redondance de 28 disques se fait sur seulement 2 disques ?!
Non, ça veut dire que les données sont répliquées trois fois (i.e.,

chaque donnée est présente sur trois disques).
Pas de Hot-Spare en plus du raid-DP ?


Snarf

--
"L'IRQ a été inventée par Murphy ; le partage des IRQ, par quelqu'un
voulant le defier "
echo '[q]sa[ln0=aln256%Pln256/snlbx]sb3135071790101768542287578439snlbxq' | dc


Thomas Pedoussaut
Le #165343
On Fri, 23 Nov 2007 17:11:55 +0000, Snarf wrote:

On 2007-11-23, Martin Lafaix
On 2007-11-23, Olivier Masson
La redondance de 28 disques se fait sur seulement 2 disques ?!
Non, ça veut dire que les données sont répliquées trois fois (i.e.,

chaque donnée est présente sur trois disques).
Pas de Hot-Spare en plus du raid-DP ?



Le hot spare ne sert que si les disques lachent un par un.

Meme Google avec son GFS admettent qu'ils peuvent perdre des données si
suffisament de disques sont perdus en un laps de temps tres court.

Les systemes de redondance sont robustes lorsque les seveurs fonctionnent,
cad que les pannes arrivent une par une. On a generalement le temps de
reconstruire avant que la pannes suivante survienne.

Ici on est dans un cas d'un arret electrique d'un serveur. C'est tres
dangereux car entre la dernier seconde d'activité du systeme avant coupure
et la premiere seconde apres coupure, plusieurs element peuvent avoir
laché en meme temps.

--
Thomas



cpaspossible
Le #165342
NetApp fait (tres) bien le Raid 50, cela bouffe un max de disques mais c'est
tres stable.
Par contre des le moindre probleme un peu serieux cela part tres tres vite
en vrille, style halt forcé tout les 24H pour forcer le changement d'un
disque
ou ambiance disco des diodes verte et rouge des array de disques.

Sur les F720/740/760 c'etait folklo a l'epoque....
Publicité
Poster une réponse
Anonyme