La Fibre

Hébergeurs et opérateurs pro / entreprises => Hébergeurs et opérateurs pro / entreprises => Techcrea Solutions Techcrea Solutions / FirstHeberg => Discussion démarrée par: dada44 le 31 janvier 2018 à 11:59:08

Titre: Un Masterpact FirstHeberg explose suite à une erreur humaine
Posté par: dada44 le 31 janvier 2018 à 11:59:08
Sale Nuit pour FirstHeberg..  :-\

Thread de @caaptusss : https://twitter.com/caaptusss/status/958608274777169920
Titre: masterPack Firstheberg
Posté par: Hugues le 31 janvier 2018 à 12:55:25
Apparemment, cela viendrait d'un gros courant de fuite dans le datacenter, je n'ai pas assez de connaissances en électricité pour voir comment cela a pu induire un tel accident, mais j'aimerais bien en savoir plus, si quelqu'un passe par là.. :)

En tout cas, gros soutien aux équipes, c'est jamais facile ce genre d'accident, surtout qu'il y'a eu un blessé à cause de l'explosion du masterpack.
Titre: masterPack Firstheberg
Posté par: mattmatt73 le 31 janvier 2018 à 13:51:09
il faut que l'on m'explique comment un courant de fuite remonte un masterpack ouvert et comment un démontage de neutre provoque ça.

le batiment est sous quel régime de neutre ? un TN ?
Titre: masterPack Firstheberg
Posté par: caaptusss le 05 février 2018 à 20:56:17
il faut que l'on m'explique comment un courant de fuite remonte un masterpack ouvert et comment un démontage de neutre provoque ça.

le batiment est sous quel régime de neutre ? un TN ?

Bonjour,

Oui, on est en TN. L'enquête permettant de déterminer les causes de cet incident sont en cours. Les assurances font leur job.
Il y a plusieurs pistes, dont ce courant de fuite. On n'exclut pas également une erreur humaine (mauvaise isolation de l'armoire depuis le transfo, celle ci était toujours alimenté et la création d'un arc sur le jeu de barre et détruit le masterpack), ou encore un défaut dans le masterpack en lui même.

La situation est stabilisée, on est revenu en fonctionnement normal. Heureusement, l'autre armoire qui nous alimente n'a pas été touchée par l'explosion et elle a pu être isolée du reste de l'installation, branchée directement sur le transformateur. Les équipes du sous-traitant peuvent ainsi travailler en tout sécurité sur l'armoire qui a explosée, elle a été débranchée directement depuis le transformateur.

Reste qu'il faut terminer ce qui a été commencé. Il faut changer ce transformateur qui est âgé et qui ne supportera probablement pas un second incident. On a aussi eu beaucoup de chance à ce niveau là. Le masterpack a un courant de destruction à 22 kA, c'est juste hallucinant l'énergie qui est passée par là. Etant à quelques mètres du TGBT au moment de l'explosion, je peux vous assurer que j'en ai eu mal au crane, et m'endormir rapidement est encore difficile...
La suite dans les jours à venir...
Titre: Un masterPack FirstHeberg explose suite à une erreur humaine
Posté par: vivien le 05 avril 2018 à 13:30:59
Jérémy Martin a donné l’histoire complétè sur twitter (https://twitter.com/caaptusss/status/981609847648145413), après analyse des experts. (j'ai changé le titre du sujet, vu que c'est une erreur humaine du sous-traitant)

(https://lafibre.info/images/datacenter/logo_firstheberg.png)

Le 30 janvier au soir :

On a démarré le 30 janvier dans l'espoir de pouvoir basculer notre datacenter sur les groupes du ss traitant.
Dommage, DDR impossible a désactiver, avec un courant de fuite trop fort, le groupe n'est pas utilisable.

(https://lafibre.info/images/datacenter/201804_firstheberg_incident_datacenter_01.jpg)

On commandera un autre groupe a 4h du mat mais les techniciens ont préparés le TGBT pour la suite des opérations et en attendant le groupe.

Mais c’était sans compter une erreur qui semble humaine.
Un arc est créé entre 2 barres (neutres et phase 1) et sous tension.
Un flash de 5000A apparait et projette l'ouvrier au sol.

Cela génère une explosion et une boule de métal en fusion qui arrose toute la pièce. L'onduleur en garde quelques traces et l'armoire est en partie détruite.
L'ouvrier s'en sort miraculeusement et l'incendie est immédiatement maîtrisé.

Tous les tableaux sont tombés.
Blackout.

(https://lafibre.info/images/datacenter/201804_firstheberg_incident_datacenter_02.jpg)

(https://lafibre.info/images/datacenter/201804_firstheberg_incident_datacenter_03.jpg)


Activation du plan "blackout"

Tous les départs sont tombés, les onduleurs sont en train de se vider pendant que mon équipe active le plan blackout.
Je suis en train de m'occuper du blessé en attendant les secours.

Une fois pris en charge par le samu, me vient la prise de conscience "Putain, merde ! Le dc !"

Les infras vitales ont étés éteintes le plus vite possible. On est en pleine nuit, l'impact est grand mais on va le gérer.

Se pose la question de comment et QUAND on va pouvoir redémarrer. Il est 2h du mat. La longue attente et réflexion commence...

Une nouvelle équipe du sous traitant ne pourras démarrer qu'a 5h du mat. Pas le choix, il faut les attendre car impossible d'analyser les dégâts car sous le choc.

Le groupe sans ddr est arrivé 1h avant, on décide 1h de down en plus plutôt que devoir perdre de l'énergie à câbler.

Le sous traitant est là. Le jour se lève. Il pense à recâbler le TGBT sain depuis le transformateur qui n'a du coup pas bougé. Bingo, a 5h30 l'armoire HS est déconnectée, on a du jus au datacenter.


Maintenant il faut tout rallumer...

On a 24h de taf dans les pattes mais on y va ensemble ! Le datacenter sera rétablit a 90% vers 8h le matin. Soit 2h pour tout rallumer. Maintenant, il faut traiter la casse matérielle.

Côté casse, on a quelques dizaines de disques, d'alimentation, et 4 ou 5 serveurs complets. Un onduleur a aussi rendu l'âme.

On a perdu une centaine de VPS dont les backups étaient inexploitables. C'est dur. Ça met le moral a zéro.

Y a 150 tickets en attente (+40/heure)

(https://lafibre.info/images/datacenter/201804_firstheberg_incident_datacenter_04.jpg)


Le temps de faire le point

Que s'est il passé ? Pourquoi ? Qu'à t'on fait de mal ?
Il faut se redonner du moral dans ces moment très sombre.

Viendra le temps de l'enquête qui a déjà démarré, les assurances, et... la fin de ce remplacement de transfo avorté !

Quelques jours plus tard, il faut remplacer le master pack qui a explosé. L'armoire qui a explosé est alimenté par un groupe électrogène (notre datacenter est lui sur le secteur).
Pas le choix, il faut tout éteindre. On fait le choix d'éteindre volontairement le DC a 00h.

Chose amusante, l'expertise contradictoire avait lieux le matin même du 28 mars.

(https://lafibre.info/images/datacenter/201804_firstheberg_incident_datacenter_05.jpg)

(https://lafibre.info/images/datacenter/201804_firstheberg_incident_datacenter_06.jpg)

Il est conclu entre les parties que l'erreur semble humaine.
Le sous traitant reconnait sa faute.
Enquête terminée après 4h de débats houleux.


Morale de l'histoire :

Quand vous faites un chantier de cette ampleur, il y a un mot indispensable , ANTICIPATION ! C'est là que le sous traitant a pêché. Ils ont fait de leur mieux je pense. Désormais tout ça est derrière nous. Au final, on va prendre une grande décision bientôt.

La suite se passe très bien hormis un peu de retard, le transfo est mis sous tension le vendredi 29 mars matin.

La bascule sur sa source est prévue vendredi soir a 00h.
Celle ci se passe bien sans impact (sauf cette baie vps mal ondulé).

(https://lafibre.info/images/datacenter/201804_firstheberg_incident_datacenter_07.jpg)

Mais je resterais sur ce teasing et vous laisse pour ce soir, merci pour votre lecture. Je vous répond dans le fil :) bonne soirée !
Titre: Un masterPack FirstHeberg explose suite à une erreur humaine
Posté par: miky01 le 05 avril 2018 à 23:53:40
Ben c'est de truc qui arrive, j'ai eu ca dans un DC ou l'onduduleur a cramé, une capa ou les un litre d'huile a pris feux en pleine nuit, le gardien de nuit c'est redu dans la salle suite a l'alarme incendie qui s'est déclanchée mais a pas pu y entrer, trop de fumée, les pompiers sont arrivés 10 minutes apres, heureusement pas trop de dégatat, juste une gaine de cables lan et fibre sur le plafond cramée.

La chance est que les sprinklair se sont pas déclenché, sinon c'etait des millier de litres de flottes sur les 300 serveurs.

Ca c'est bien terminé apres le remplacement de tous les fitres a air et un nettoyage de la salle.
Titre: Un masterPack FirstHeberg explose suite à une erreur humaine
Posté par: gillejeu le 06 avril 2018 à 00:00:09
La chance est que les sprinklair se sont pas déclenché, sinon c'etait des millier de litres de flottes sur les 300 serveurs.

De la flotte pour éteindre des armoire élec!!??

Ils connaissent pas le FM200 chez vous?
Titre: Un masterPack FirstHeberg explose suite à une erreur humaine
Posté par: 172sp le 06 avril 2018 à 00:14:19
Les sprinklers sont beaucoup moins onéreux qu'un système à gaz.
Titre: Un masterPack FirstHeberg explose suite à une erreur humaine
Posté par: gillejeu le 06 avril 2018 à 18:07:13
Les sprinklers sont beaucoup moins onéreux qu'un système à gaz.

C'est vrai qu'en ayant l'habitude de travailler dans le nucléaire, les système d'extinction ont toujours été à gaz. D'abord le halon et maintenant le FM200.
Titre: Un masterPack FirstHeberg explose suite à une erreur humaine
Posté par: aem38 le 09 avril 2018 à 10:56:58
impressionnant, et merci pour ce retour !

J'ai été témoin d'un tel incident également !
Court circuit entre deux jeux de barre sous 450 A par contre. Entre le flash, les bruits ça marque une personne à vie tellement c'est violent !

Alors avec 5000 A …

Avec un tel court circuit, le réseau en aval a du prendre un sérieux cout …

Des équipements ont été détruits ou pas ? Des protections sont elles existantes contre ce genre de phénomène ?
Titre: Un masterPack FirstHeberg explose suite à une erreur humaine
Posté par: mattmatt73 le 09 avril 2018 à 11:36:10
Les sprinklers sont beaucoup moins onéreux qu'un système à gaz.

mais si l'eau fait plus de dégâts que le feux, c'est rentable...
Titre: Un masterPack FirstHeberg explose suite à une erreur humaine
Posté par: Jojo78 le 09 avril 2018 à 12:10:13
mais si l'eau fait plus de dégâts que le feux, c'est rentable...
Sans aucune connaissance du domaine, j'avais un peu la même pensée.
Titre: Un masterPack FirstHeberg explose suite à une erreur humaine
Posté par: mattmatt73 le 09 avril 2018 à 12:20:47
Sans aucune connaissance du domaine, j'avais un peu la même pensée.

et avec la connaissance du domaine ?
Titre: Un masterPack FirstHeberg explose suite à une erreur humaine
Posté par: 172sp le 09 avril 2018 à 12:31:20
Il faut prendre en compte la probabilité d'accident, la couverture des assurance et les coûts engendrés.
Dans ce cas on imagine bien que c'est l'assureur du sous traitant qui va probablement payer les coûts engendrés, car il n'y a pas que le remplacement du matos, il y a aussi les indemnités pour les clients qui avait des GTR très petites.
Titre: Un masterPack FirstHeberg explose suite à une erreur humaine
Posté par: vivien le 09 avril 2018 à 13:42:27
Tout est un ratio entre les risques et les couts...

L'accident nucléaire de Fukushima est là pour nous rappeler que certaines coupures électriques peuvent avoir des conséquences très importantes.

30 secondes avant les secousses principales, la centrale a été éteinte par sécurité. Le séisme est inférieur aux hypothèses de dimensionnement et il n'y à ce moment là aucun problème, excepté les six lignes d’alimentations électriques externes des réacteurs qui sont coupées. Cinquante-et-une minutes plus tard, le tsunami inondait 8 des 12 groupes électrogènes de secours à moteur diesel qui avaient pris le relais pour faire fonctionner les pompes de refroidissement. Un système d'ultime secours sur batterie à pris le relais, puis s'est arrêté par défaillance des batteries électriques. La centrale n'avait pas de système prévu pour raccorder en urgence des groupes externes et les groupes acheminés en urgence le jour même n'ont pas pu être connectés. On connait la suite. L'électricité sera rétabli une semaine après, trop tard.
Titre: Un masterPack FirstHeberg explose suite à une erreur humaine
Posté par: mattmatt73 le 09 avril 2018 à 13:51:36
Tout est un ratio entre les risques et les couts...


mais on est d'accord que ça parait stupide de protéger un DC à l'eau ?
Titre: Un masterPack FirstHeberg explose suite à une erreur humaine
Posté par: vivien le 09 avril 2018 à 14:04:27
OVH le fait, je ne pense pas qu'ils soient stupides.

=> OVH et la protection incendie (https://lafibre.info/ovh-datacenter/ovh-et-la-protection-incendie/)

Leon avait fait la remarque :
Ce sont de simples sprinkler qui arrosent avec de l'eau. Ca n'a rien à voir avec les systèmes de brumisation très haute pression, où l'eau s'évapore instantannèment, et qui permettent de sauver les serveurs. Ici, ça arrose, et tous les serveurs sont morts. C'est conçu comme ça. Etonnant, non?

L'extinction incendie n'est pas obligatoire comme l'évoque Arnaud d'Online :
En France, les datacenters sont règlementés essentiellement par le code du travail, par les préconisations ICPE (à autorisation ou déclaration) et par les assureurs.
Au niveau purement règlementaire, les seules choses qui sont demandées c'est :
- Le désenfumage mécanique ou naturel pour les locaux aveugles ou faisant plus de 300m2
- Le compartimentage coupe-feu au delà d'un certain volume / m2
- Des issues de secours accessibles avec une certaine largeur
- Une ventilation donnant un minimum d'air neuf par occupant
- L'accessibilité pompier par la facade pour les locaux sont le plancher bas du dernier niveau est à plus de 8 mètres
- 1 chiotte pour 10 personnes (occupant un poste considéré comme "fixe")

Rien n'est demandé ni en détection incendie, ni en extinction. C'est très léger.
Titre: Un masterPack FirstHeberg explose suite à une erreur humaine
Posté par: 172sp le 09 avril 2018 à 17:59:38
Il est bon de rappeler qu'un sprinkler ne s'enclenche uniquement en cas de température trop élevée, donc au moment de son déclenchement, le matos à proximité est déjà bien entamé par le feu et probablement irrécupérable.
Titre: Un masterPack FirstHeberg explose suite à une erreur humaine
Posté par: renaud07 le 10 avril 2018 à 15:58:06
Impressionnant... C'est là qu'il est bon de se rappeler les dangers de l'électricité...
Titre: Un masterPack FirstHeberg explose suite à une erreur humaine
Posté par: caaptusss le 14 avril 2018 à 00:52:44
Ca a été un moment particulièrement pénible, vous pouvez me croire ...
L'utilisation de 2 groupes câblés en TWIN nous a sauvé la mise sur la fin des interventions, car le sous-traitant ne maitrisait pas du tout le concept de disponibilité 100 %.

On a perdu plusieurs dizaines de serveurs, de disques (hdd ou ssd), d'alimentations et même des CPU... Les pannes étaient surtout regroupées sur une baie dont l'onduleur a lui aussi rendu l'âme. On suppose qu'il y a eu une bonne surtension sur le réseau au moment de l'arc, ou des harmoniques vraiment badasse.
Les gars dans notre équipe ont tous super bien réagit et ont fait front ensemble face à ce désastre, ça fait vraiment plaisir à voir ! Le plan Blackout a été suivi à la lettre par l'équipe, avec extinction au plus rapide de tous les systèmes critiques en priorité, puis extinction des serveurs. On lance aussi un petit script qui backup et sauvegarde les conf de tout le réseau en quelques secondes tant que les onduleurs sont encore allumés. Tout a fonctionné de ce coté là et quand le jus est revenu, on a pu redémarrer en 30mn pour 50 % des infras, et 1h30 pour 95 %. Vu le nombre de machines (plusieurs milliers), c'est honnête.

Par contre, je vous dis pas le pic de courant au démarrage... Certaines machines avaient un uptime aussi vieux que la construction de la salle. Par exemple sur la salle 1, on était pas loin de 6 ans ...
Titre: Un masterPack FirstHeberg explose suite à une erreur humaine
Posté par: vivien le 14 avril 2018 à 07:47:02
Comment un jeu de barre peut permettre de relier une phase au neutre ? Cela un intérêt dans certains cas ?

Ce type de manipulation ne devrait pas être impossible ?

Par contre, je vous dis pas le pic de courant au démarrage...
Je me suis demandé pourquoi Dell et d'autres fabricants ne configurent pas l'UEFI par défaut pour ne démarrer qu’après un temps aléatoire (entre 0 et 240sec), pour éviter aux baies chargées de disjoncter lors de la remise sous tension.

C'est une option qui est présente, mais qui n'est pas activée par défaut.
Titre: Un masterPack FirstHeberg explose suite à une erreur humaine
Posté par: mattmatt73 le 14 avril 2018 à 08:12:31
Comment un jeu de barre peut permettre de relier une phase au neutre ? Cela un intérêt dans certains cas ?



Dans certains cas oui, tu couples ensemble les 3 phases + neutre et le tout va à la terre.

Ça permet d'intervenir en sécurité sur des systèmes et de mettre un site en mode isolé quand tu sais que tes alims vont prendre la foudre.

C'est ce qu'ils se passe sur les gros sites èmetteurs TNT/FM où la foudre arrive souvent.

Quand une sonde d'ionisation ou que météo France déclare le site comme probablement foudroyé dans pas longtemps, démarrage groupe, monté en charge, bascule de sources, isolation de l'extérieur et prières pour pouvoir retrouver l'alimentation extérieure après.

Titre: Un masterPack FirstHeberg explose suite à une erreur humaine
Posté par: Groumph le 17 avril 2018 à 21:18:46
Bonsoir, je déterre réponds pour signaler que c'est "Masterpact", pas "Masterpack". Je vous aime quand même  :-*

Très intéressant en tout cas. Un régime TN-C ? Le genre d'accident qui fait frémir tous ceux qui ont déjà monté un jeu de barres... C'est joli avant mise en service ;D
Titre: Un masterPack FirstHeberg explose suite à une erreur humaine
Posté par: Hugues le 17 avril 2018 à 21:41:41
Tout le monde dit Masterpack, même les opérateurs de DC, donc les deux sont acceptables :)
Titre: Un Masterpact FirstHeberg explose suite à une erreur humaine
Posté par: Nico le 17 avril 2018 à 21:43:29
J'ai corrigé parce que j'aime pas les gens qui disent digitaliser et crypter.
Titre: Un Masterpact FirstHeberg explose suite à une erreur humaine
Posté par: Hugues le 17 avril 2018 à 21:44:10
C'est pas pareil, roh...
Titre: Un Masterpact FirstHeberg explose suite à une erreur humaine
Posté par: vivien le 17 avril 2018 à 22:02:54
Corrigé sur la miniature en une du forum...