OVH Cloud OVH Cloud

Redbus Maintenance loupé, le noir !

39 réponses
Avatar
Osmove.fr - Alibaux Virgile
Apparemment il y avait une maintenance electrique chez redbus qui ne s'est
pas déroulée comme prévu !

Donc tout à sauté ... En coloc chez sivit toutes mes infras ont rebootés
aussi. (enfin il en reste dans le noir..)

Voilaaa....

--
Virgile Alibaux
www.osmove.fr

9 réponses

1 2 3 4
Avatar
Pierre-Yves Maunier
Christophe Baegert wrote:
Le rapport d'incident vient de tomber, une belle démonstration de la Loi de
Murphy, et même de plusieurs de ses variantes, puisqu'au début on a "si
quelqu'un peut faire une connerie, alors il la fera", puis on a droit au
"si un incident peut arriver, alors il arrivera au pire moment, en général
en même temps que d'autres incidents" ;-)
Comment ils cassent le sucre sur le dos de leur prestataire...

Personnellement je pense qu'il y a des trucs encore flous dans leur rapport.
Déjà vu la chronologie un peu dans n'importe quel ordre :-)

http://tifrere.com/Redbus_IncidentReport_060228_FR.pdf

--
Pierre-Yves Maunier

Avatar
Patrick Mevzek

Le rapport d'incident vient de tomber, une belle démonstration de la Loi de
Murphy, et même de plusieurs de ses variantes, puisqu'au début on a "si
quelqu'un peut faire une connerie, alors il la fera", puis on a droit au
"si un incident peut arriver, alors il arrivera au pire moment, en général
en même temps que d'autres incidents" ;-)


Ca ne sera pas le preminer «accident» technologique de la sorte, ie qui
survient pendant une maintenance. Chernobyl en est un exemple classique.
Effet sapin de noël garanti !

Là les batteries n'ont tenu que 12 minutes apparemment. Paix à leur âme.

--
Patrick Mevzek . . . . . . Dot and Co (Paris, France)
<http://www.dotandco.net/> <http://www.dotandco.com/>
Dépêches sur le nommage <news://news.dotandco.net/dotandco.info.news>

Avatar
Christophe Baegert
Pierre-Yves Maunier wrote:

Christophe Baegert wrote:
Le rapport d'incident vient de tomber, une belle démonstration de la Loi
de Murphy, et même de plusieurs de ses variantes, puisqu'au début on a
"si quelqu'un peut faire une connerie, alors il la fera", puis on a droit
au "si un incident peut arriver, alors il arrivera au pire moment, en
général en même temps que d'autres incidents" ;-)
Comment ils cassent le sucre sur le dos de leur prestataire...

Personnellement je pense qu'il y a des trucs encore flous dans leur
rapport.


Ce que j'ai du mal à comprendre (mais je ne suis pas un expert en
électricité), c'est qu'une panne du dispositif de contrôle ait pu provoquer
la coupure du dispostif contrôlé ... Les disjoncteurs n'auraient-ils pas pu
rester simplement en l'état ? En principe, c'est pour augmenter la
fiabilité, pas pour la diminuer qu'on fait des contrôles ?


Avatar
Pierre-Yves Maunier
Christophe Baegert wrote:
Pierre-Yves Maunier wrote:

Christophe Baegert wrote:
Le rapport d'incident vient de tomber, une belle démonstration de la Loi
de Murphy, et même de plusieurs de ses variantes, puisqu'au début on a
"si quelqu'un peut faire une connerie, alors il la fera", puis on a droit
au "si un incident peut arriver, alors il arrivera au pire moment, en
général en même temps que d'autres incidents" ;-)
Comment ils cassent le sucre sur le dos de leur prestataire...

Personnellement je pense qu'il y a des trucs encore flous dans leur
rapport.


Ce que j'ai du mal à comprendre (mais je ne suis pas un expert en
électricité), c'est qu'une panne du dispositif de contrôle ait pu provoquer
la coupure du dispostif contrôlé ... Les disjoncteurs n'auraient-ils pas pu
rester simplement en l'état ? En principe, c'est pour augmenter la
fiabilité, pas pour la diminuer qu'on fait des contrôles ?
Ce que j'ai compris :

- coupure de l'arrivée du panneau de controle pour remplacer les batteries.
- les bobines des disjoncteurs qui controlent les arrivées EDF et groupe
électrogènes auraient perdu l'alimentation et donc aurait fait tomber
les disjoncteurs
- bascule sur les UPS

jusque là c'est cohérent

- pourquoi ils ont mis 11 minutes (temps de travail de l'ups) pour
remettre en route le controleur et donc lever les disjoncteurs des
arrivées (s'ils avaient été tombés)

- pourquoi quand c'est revenu c'est repartis sur les groupes
electrogènes au lieu de reprendre l'arrivée EDF ?

je vois nulle part une mention de coupure EDF, ya une coupure electrique
mais ca a l'air de correspondre au boitier de controle qui aurait fait
tomber les disjoncteurs des arrivées EDF, groupes electrogènes.


Je suis pas un expert en electricité mais c'est ce que j'ai compris, si
je me trompe merci de me corriger.

--
Pierre-Yves



Avatar
oles
Christophe Baegert a écrit:
Pierre-Yves Maunier wrote:

Christophe Baegert wrote:
Le rapport d'incident vient de tomber, une belle démonstration de la Loi
de Murphy, et même de plusieurs de ses variantes, puisqu'au début on a
"si quelqu'un peut faire une connerie, alors il la fera", puis on a droit
au "si un incident peut arriver, alors il arrivera au pire moment, en
général en même temps que d'autres incidents" ;-)
Comment ils cassent le sucre sur le dos de leur prestataire...

Personnellement je pense qu'il y a des trucs encore flous dans leur
rapport.


Ce que j'ai du mal à comprendre (mais je ne suis pas un expert en
électricité), c'est qu'une panne du dispositif de contrôle ait pu provoquer
la coupure du dispostif contrôlé ... Les disjoncteurs n'auraient-ils pas pu
rester simplement en l'état ? En principe, c'est pour augmenter la
fiabilité, pas pour la diminuer qu'on fait des contrôles ?


Non. Chez EDF (puisqu'il s'agit du dijoncteur entre EDF et Redbus)
le principe est l'inverse. Pourquoi ? Il faut prendre en compte
tous les cas de figure, et pas seulement les datacentres (EDF ne
va pas faire une exception parceque c'est un datacentre). Un exemple:
pour une raison X, il y a le feu à cause d'un court-circuit, ça commence
à bruler et le feu detruit progresivement tout et plouf ça fait sauter
l'alimentation et le feu s'arrete. Le coup de batterie du dijoncteur
c'est tellement connu que tous les prestateurs serieux se baladent
avec ce genre des batteries dans les voitures en double ou en triple.
Car ce qui arrive le plus souvent c'est quand même d'avoir oublié changer
la batterie pendant 3-4-5ans, puis avoir la batterie tellement morte
qu'elle ne fonctionne plus et lache le dijoncteur ... Erreur humain
ou pas, ça arrive (c'est connu). Maintenant les batteries des onduleurs
dechargées et avec la mauvaise syncro des groupes c'est une mauvaise
conception (qui n'a pas pris en compte le fait que les batteries auraient
pu être dechargées par un evenement exceptionnel comme cet erreur humain).
Il y a des solutions à ce genre des cas (2ème sources EDF avec un
dijoncteur séparé par exemple en plus), mais ça a un cout (pour 300KE on
peut avoir tout en kit et encore quelques KE pour payer EDF). Puis dans
tous les cas, on peut toujours imaginer tous les cas de figure et
des reponses, une panne, même d'un datacentre ça peut arriver. Dire
l'inverse n'est pas honete, parcequ'il faut le prendre en compte
lors de la conception des solutions d'hébergement par exemple. Ne
pas le prendre en compte, c'est pas une erreur humain, c'est une
irresponsabilitée de la part de ceux qui utilisent ce service
(ils crient au scandale maintenant).

Octave

--
Simplifiez la gestion de votre hebergement et
telechargez MoM: http://www.ovh.com/fr/download
pour Windows, Mac ou Linux. C'est gratuit !



Avatar
arnaud
Ce que j'ai du mal à comprendre (mais je ne suis pas un expert en
électricité), c'est qu'une panne du dispositif de contrôle ait pu provoquer
la coupure du dispostif contrôlé ... Les disjoncteurs n'auraient-ils pas pu
rester simplement en l'état ? En principe, c'est pour augmenter la
fiabilité, pas pour la diminuer qu'on fait des contrôles ?



Si j'ai bien compris, il s'agit de l'inverseur de source (un dijoncteur
automatique qui s'occupe de basculer entre EDF et groupes électrogènes
en cas de coupure de l'un). Pour qu'il fonctionne en l'absence
d'EDF et en l'absence de groupes électrogène (le temps que ca démarre)
c'est un dispositif alimenté en 48VDC sur batterie.
Le comportement de ce dernier si il est plus alimenté dépends des
constructeurs, ca peut tout lacher et mettre en position de aucune
source, comme rester bloqué sans controle sur la dernière source
utilisée...

- coupure de l'arrivée du panneau de controle pour remplacer les batteries.
- les bobines des disjoncteurs qui controlent les arrivées EDF et groupe
électrogènes auraient perdu l'alimentation et donc aurait fait tomber
les disjoncteurs
- bascule sur les UPS


Ils évoquent plutot une coupure de l'arrivée EDF (???), comme le
dispositif étais en maintenance (changement de batteries), il a été
privé de jus et a adopté son comportement 'constructeur' dans ce cas,
a priori il c'est mit en position 'aucune source'.

- pourquoi quand c'est revenu c'est repartis sur les groupes
electrogènes au lieu de reprendre l'arrivée EDF ?


Sans doutes un bypass ou une intervention manuelle sur un dijoncteur
quelquonque pour outrepasser l'étape inverseur.

je vois nulle part une mention de coupure EDF, ya une coupure electrique


Justement, ya ambiguité sur ce point, une double arrivée 20000V
ca coupe pas comme ca généralement...

Pas confondre avec le controleur de source, un dispositif qui se
trouve au niveau des dijoncteurs 20000V qui s'occupe de couper
EDF en cas d'anomalie grave (anomalie de phase, anomalie de tension
etc..), qui même si il aurait laché, les dispositifs de
redondance derrière auraient fonctionner correctement, notament
l'inverseur.


Avatar
Pierre-Yves Maunier
Christophe Baegert wrote:
Le rapport d'incident vient de tomber, une belle démonstration de la Loi de
Murphy, et même de plusieurs de ses variantes, puisqu'au début on a "si
quelqu'un peut faire une connerie, alors il la fera", puis on a droit au
"si un incident peut arriver, alors il arrivera au pire moment, en général
en même temps que d'autres incidents" ;-)
En lisant ce rapport avec un peu de recul :

14h20 : on recoit l'alarme
15h28 : retour a la normale

1h08 pour résoudre le problème quand même. Ca fait beaucoup pour trouver
la source d'une erreur humaine si en plus le mec était sur place en
train de travailler dessus.

--
Pierre-Yves

Avatar
-jl-
a écrit dans le message de news:
44073724$0$13682$
Christophe Baegert a écrit:
Pierre-Yves Maunier wrote:
Ce que j'ai du mal à comprendre (mais je ne suis pas un expert en
électricité), c'est qu'une panne du dispositif de contrôle ait pu
provoquer
la coupure du dispostif contrôlé ... Les disjoncteurs n'auraient-ils pas
pu
rester simplement en l'état ? En principe, c'est pour augmenter la
fiabilité, pas pour la diminuer qu'on fait des contrôles ?


Non. Chez EDF (puisqu'il s'agit du dijoncteur entre EDF et Redbus)
le principe est l'inverse. Pourquoi ? Il faut prendre en compte
tous les cas de figure, et pas seulement les datacentres (EDF ne
va pas faire une exception parceque c'est un datacentre). Un exemple:
pour une raison X, il y a le feu à cause d'un court-circuit, ça commence
à bruler et le feu detruit progresivement tout et plouf ça fait sauter
l'alimentation et le feu s'arrete. Le coup de batterie du dijoncteur
c'est tellement connu que tous les prestateurs serieux se baladent
avec ce genre des batteries dans les voitures en double ou en triple.
Car ce qui arrive le plus souvent c'est quand même d'avoir oublié changer
la batterie pendant 3-4-5ans, puis avoir la batterie tellement morte
qu'elle ne fonctionne plus et lache le dijoncteur ... Erreur humain
ou pas, ça arrive (c'est connu). Maintenant les batteries des onduleurs
dechargées et avec la mauvaise syncro des groupes c'est une mauvaise
conception (qui n'a pas pris en compte le fait que les batteries auraient
pu être dechargées par un evenement exceptionnel comme cet erreur humain).
Il y a des solutions à ce genre des cas (2ème sources EDF avec un
dijoncteur séparé par exemple en plus), mais ça a un cout (pour 300KE on
peut avoir tout en kit et encore quelques KE pour payer EDF). Puis dans
tous les cas, on peut toujours imaginer tous les cas de figure et
des reponses, une panne, même d'un datacentre ça peut arriver. Dire
l'inverse n'est pas honete, parcequ'il faut le prendre en compte
lors de la conception des solutions d'hébergement par exemple. Ne
pas le prendre en compte, c'est pas une erreur humain, c'est une
irresponsabilitée de la part de ceux qui utilisent ce service
(ils crient au scandale maintenant).

Octave

hum! c'est un peu tiré par les cheveux ton truc ;)

je ne vois ce que peut avoir une coupure edf dans ce genre de cas, le
courrant étant ondulé et apte à fournir pendant un temps X les besoins
électrique pendant que le groupe prend le relais, le courant restant
toujours en phase.
quant au relais inverseur il me semble qu'il sont toujours mit en manque de
courrant et non l'inverse.

Mais bon je me trompe peut être
-jl-


Avatar
Osmove.fr - Alibaux Virgile
"Pierre-Yves Maunier" a écrit dans le
message de news: 440742f6$0$8987$
En lisant ce rapport avec un peu de recul :
14h20 : on recoit l'alarme
15h28 : retour a la normale

1h08 pour résoudre le problème quand même. Ca fait beaucoup pour trouver
la source d'une erreur humaine si en plus le mec était sur place en
train de travailler dessus.


Le stress des exam's.

1 2 3 4