Auteur Sujet: Rapport d’enquête BEA-RI sur l’incendie du datacenter OVH de Strasbourg en 2021  (Lu 83270 fois)

0 Membres et 1 Invité sur ce sujet

vivien

  • Administrateur
  • *
  • Messages: 47 175
    • Twitter LaFibre.info
En soit, le feu s'est propagé dans SBG1 par des portes coupes feu qui sont restés ouvertes de ce que j'en comprends ( CF P31 ) :

> Les services de secours nous ont toutefois rapporté que des portes coupe-feu avaient été maintenues ouvertes au moment de l’évacuation, ce qui a eu pour effet de dégrader l’efficacité de ce dispositif.

Non, les portes "coupe feu" sont entre SBG2 et SBG3, dans la construction en jaune dans l'image ci-dessous.
Cette construction en jaune comprend notamment les escaliers et un monte charge.



Photo de la construction de SBG2 en juin 2013, on voit :
- à gauche la construction de R+2 étages est SBG1, avec de larges ouvertures donnant sur SBG2 pour faire rentrer l'air frais.
- au centre la construction R+5 étages avec de large ouvertures et un plancher en bois est SBG2
- à droite la partie escalier / monte charge équipée de fenêtres. C'est cette partie qui contient les portes "coupe feu".



(crédit photo : Twitter Octave Klaba)

vivien

  • Administrateur
  • *
  • Messages: 47 175
    • Twitter LaFibre.info
SBG2 et SBG3 sont constructions collés l'un a l'autre. SBG1 est séparé par quelques mètres de SBG2 et des bout de container sont très proches. Il y a probablement un couloir qui permet de passer de l'un à l'autre (avec probablement une porte coupe feu, ce n'est pas mentionné, car l'embrasement s'est fait par les étages supérieur et non par le couloir du rez-de-chaussée).

SBG1, que l'on voit à droite a été impacté par la proximité des grandes ouvertures des containers qu'il possède avec SBG2. Des particules enflammées de SBG2 sont donc rentrées directement dans SBG1 :



(crédit photo : SDIS du Bas-Rhin)

Le rapport d’enquête BEA-RI explique :

L’examen de la chronologie de déclenchement des détecteurs des bâtiments voisins montre qu’il faut entre une heure et une heure et quart pour que les détecteurs optiques et les détecteurs par aspiration déclenchent de manière significative dans les bâtiments SBG1 (1er étage) et SBG3.
De taille plus modeste, moins bien protégé des flux thermiques (conception de type container maritime), SBG1 sera d’ailleurs plus fortement impacté que SBG3 qui a bénéficié de la présence d’un dispositif coupe-feu (mur coupe-feu 2 heures et porte coupe-feu) et des moyens en eau mobilisés par les sapeurs-pompiers du Bas-Rhin.

vivien

  • Administrateur
  • *
  • Messages: 47 175
    • Twitter LaFibre.info
Vidéo de 2012 d'OVH qui montre l'intérieur de SBG1. On voit les grandes ouvertures qui ont permis aux particules enflammées de SBG2 de rentrer.



Dans les plan initiaux, SBG3 (à droite sur le dessin) devait être construit de la même manière que SBG2, mais ce ne fut pas le cas :


vivien

  • Administrateur
  • *
  • Messages: 47 175
    • Twitter LaFibre.info
Pour SBG3, le rapport du BEA-RI explique : Les services de secours nous ont toutefois rapporté que des portes coupe-feu avaient été maintenues ouvertes au moment de l’évacuation, ce qui a eu pour effet de dégrader l’efficacité de ce dispositif.

L'impact a été qu'il a fallu vérifier / nettoyer les serveurs des différentes salles de SBG3, la fumée ayant encrassée les composants des serveurs.

Octave Klaba avait partagé quelques photos sur le nettoyage des serveurs :


Le nettoyage prend du temps. Nous avons 80 personnes (SBG3) + 20 personnes (Croix).

Ci-dessous une carte mère avec la pollution par la fumée sur le socket du CPU.
C'est très corrosif! Si on se met sous tension, c'est mort.
Identique au disque.



Ci-dessous, le même appareil 24h après le nettoyage


vivien

  • Administrateur
  • *
  • Messages: 47 175
    • Twitter LaFibre.info
Autre photos partagées par Octave Klaba sur le nettoyage des serveurs :






vivien

  • Administrateur
  • *
  • Messages: 47 175
    • Twitter LaFibre.info
Alexandre me dit sur twitter : Je suis certes pas expert mais je n'ai jamais vu des batteries au plomb prendre feu ?

Si, il me semble que c'est possible après un emballement thermique ou "Thermal Runaway".

L'emballement thermique se produit quand une batterie opère sous une température ambiante élevée alors qu'elle est en surcharge. La quantité de chaleur produit lors d'un dégazage intensif peut dépasser la quantité de chaleur qui s'échappe de la batterie. La température de la batterie s'élève alors, ce qui accélère encore la vitesse des réactions chimiques exothermiques : c'est l'emballement thermique et la batterie sera perdue.
 
Pour éviter les problèmes de température, les batteries doivent être placées dans un bâtiment thermiquement isolé ou doivent être associées à des radiateurs thermiques (dissipation de chaleurs).

Il me semble qu'il existe des conceptions de batteries (bien sur cela coûte plus cher) qui garanti l'absence d'emballement thermique ou au moins la propagation aux batteries voisines.

Vidéo de "feu de batterie" selon Arnaud de Bermingham, le CEO de Scaleway.


Scaleway nous montre encore une fois sa transparence

DC3 - Feu de batterie sur la chaine A (Onduleur A1, sur 5 disponibles) lors d'une maintenance annuelle planifiée.
Maitrisé, le désenfumage du local est en cours puis évaluation des dégâts.
Tous les onduleurs de la chaine sont en fonctionnement normal, pas d'impact


La vidéo :



puis quelques minutes après : Les deux chaines de batteries sont isolées, tout est en fonctionnement normal et nominal.



oliviermis

  • Officiel dc2scale + AS49434 Harmony Hosting
  • Expert
  • *
  • Messages: 82
  • Vélizy (78) et Brest (29)
On avait aussi alf084 qui avait identifié un technicien de Vertiv, société spécialisé dans les onduleurs, dans les vidéos postées par Octave suite à l'incendie :

La vidéo en question, le technicien Vertif apparaît à la 28ème seconde de la vidéo :

A mon sens, au vu des photos, les onduleurs impliqués sont des 80NET, probablement en 500kW (Chloride, devenu Emerson et devenu VERTIV depuis). On croit voir au fond de la photo des onduleurs EATON également…

vivien

  • Administrateur
  • *
  • Messages: 47 175
    • Twitter LaFibre.info
Réponse de Arnaud de Bermingham : Les batteries auto-protégées contre le risque d'incendie sont des batteries "V0" ou "Flame Retardant".

Il me semble que Scalway utilise maintenant ces batteries.



vivien

  • Administrateur
  • *
  • Messages: 47 175
    • Twitter LaFibre.info
A mon sens, au vu des photos, les onduleurs impliqués sont des 80NET, probablement en 500kW (Chloride, devenu Emerson et devenu VERTIV depuis). On croit voir au fond de la photo des onduleurs EATON également…

OVH avait communiqué à l'époque sur le fait que l'onduleur d'où l'incendie à démarré est un "PS7". Je n'ai pas trouvé a quoi cela correspondait.

C'est dans la vidéo suivante, tournée le lendemain de l'incendie. (Avancer la vidéo à la 5ème minutes de la vidéo pour la discussion sur l'onduleur en question) :


On apprend que l'origine de l'incendie pourrait avoir démarrer à 0h47min venir d'un onduleur PS7 qui a eu une maintenance le matin du drame avec de nombreuses pièces changées (en tout cas c'est une piste évoquée).

Deux personnes OVH + des gardiens étaient sur place et n'ont pas pu intervenir car la fumée était trop épaisse.

Ils ont 300 de caméras de vidéosurveillance à Strasbourg, les images seraient exploitables, on devrait en savoir plus dans quelques jours.

Les serveurs non affectés vont pouvoir redémarrer progressivement à partir de la semaine prochaine.

SBG2 date de 2011. 5 autres datacenter sont sur le même principe d'une tour auto-ventilée (exemple: Roubaix 4)

10 000 serveurs à Roubaix et à Gravelines vont être livrés. La production de serveurs neufs va tripler en passant à 2500 / 3000 serveurs par semaine.




vivien

  • Administrateur
  • *
  • Messages: 47 175
    • Twitter LaFibre.info
Un point amélioration noté par le rapport d’enquête BEA-RI consiste à la capacité à pouvoir éteindre un datacenter en cas d'urgence : Les pompiers auraient pu intervenir plus rapidement et l'incendie aurait probablement été moins virulent si toutes les sources électriques avait pu être rapidement coupées, notamment sur l'onduleur défectueux.

Le bâtiment est évacué à 00h39.
[...]
À 01h50, l’alimentation du site est coupée au niveau du poste source amont par Strasbourg Électricité Réseaux. Mais à 02h14, il y a toujours du courant dans le bâtiment 2, maintenant totalement embrasé, et une importante propagation vers le bâtiment 1 est constatée.


Serveur qui remontait (dans un outils de monitoring situé sur un autre site) sa température :


blarglibloup

  • Invité
Alexandre me dit sur twitter : Je suis certes pas expert mais je n'ai jamais vu des batteries au plomb prendre feu ?

Si, il me semble que c'est possible après un emballement thermique ou "Thermal Runaway".
Je ne suis pas expert non plus mais mes modestes connaissances sur les batteries PbAc me font dire que l'emballement thermique (qui est causé par une décharge interne rapide, typiquement un court-circuit entre plaques) à lui seul ne peut pas causer d'incendie (contrairement aux batteries LiPo par exemple, dont la densité énergétique est bien plus élevée). L'acide se met à bouillir, la batterie gonfle et se déforme et peut projeter de l'acide, mais la température n'est pas suffisante pour provoquer un départ de feu.

C'est d'ailleurs confirmé ici: https://www.power-sonic.com/blog/sla-thermal-runaway/
Citer
Will thermal runaway cause a fire?

While enough heat is generated to boil the acid, this temperature is far below any flash point that may cause fire. The temperatures are generally not even high enough to melt the case. The dangers of battery acid spillage are far higher than any fire or explosion risk.

En revanche le dégazage d'hydrogène d'une batterie en surcharge (au sens "apport excessif d'énergie", pas au sens "on tire trop dessus", qui provoque une électrolyse de l'eau contenue dans l'électrolyte) est lui très facilement inflammable, une étincelle dans ce gaz provoque immédiatement une explosion. C'est pour ça que la ventilation des locaux où des batteries sont chargées est essentielle.

Mes 2 sous

blarglibloup

  • Invité
Post moterm de l'incident de novembre 2017 :

Donc en novembre 2017 il est question de démanteler SBG1 et SBG4, et 4 ans plus tard non seulement ils ne sont pas démantelés, mais il est question de les réparer et remettre en route après l'incendie? Petit problème de cohérence non? :P