Auteur Sujet: Rapport d’enquête BEA-RI sur l’incendie du datacenter OVH de Strasbourg en 2021  (Lu 91024 fois)

0 Membres et 1 Invité sur ce sujet

Sylv_01

  • Abonné Orange Fibre
  • *
  • Messages: 380
En revanche le dégazage d'hydrogène d'une batterie en surcharge (au sens "apport excessif d'énergie", pas au sens "on tire trop dessus", qui provoque une électrolyse de l'eau contenue dans l'électrolyte) est lui très facilement inflammable, une étincelle dans ce gaz provoque immédiatement une explosion. C'est pour ça que la ventilation des locaux où des batteries sont chargées est essentielle.

Oui, un poste de charge batterie doit être identifié comme une zone ATEX...

  • Invité
[Il y a des datacenter où la sortie de l'onduleur on a un transformateur pour remonter la tension en 20 000 volts (d’après ce que j'ai compris, cela permet des économies)
Ça permet notamment de faire des économies sur la section des câbles électriques, c'est pour ça qu'on transporte le courant à très haute tension dans les lignes du même nom :)

vivien

  • Administrateur
  • *
  • Messages: 48 042
    • Twitter LaFibre.info
Ça permet notamment de faire des économies sur la section des câbles électriques, c'est pour ça qu'on transporte le courant à très haute tension dans les lignes du même nom :)
Oui, mais on parle d'une ou deux centaine de mètres maximum entre les onduleurs du datacenter et les serveurs...

La vraie question c'est quand même : quelle est la marque des onduleurs?, Est-ce qu'il y a des logs?
Les batteries des onduleurs peuvent être victimes d'emballement thermique (suite problème de clim?) et normalement les onduleurs savent gérer ce problème, cela n'aurai t pas du arriver.

OVH ne gardait pas les log des onduleurs. Donc on ne sais pas si les batteries étaient en décharge rapide, en surcharge (apport d'énergie excessif) ou dans un état stable.

Extrait du rapport d’enquête BEA-RI :
Il est difficile de dire quel était le mode de fonctionnement des salles énergies au moment où s’est produit la défaillance. Le BEA-RI a sollicité OVH pour obtenir les paramètres d’exploitation des onduleurs
(tensions et intensités délivrées, mode de fonctionnement,…) au moment de la défaillance de l’équipement. OVH nous a indiqué ne pas en disposer.


Le rapport ne dit pas non plus si le départ de feu constaté au niveau des batteries s'est généralisé aux autres batteries du local.

Quel est le départ qui a permis au bâtiment de s'embraser ? Les batteries ? L'onduleur ? Les deux ? Les deux étant dans un local distinct, l'information est importante.

Ces deux photos extraite de la vidéosurveillance OVH, publiée par le BEA-RI sont très intéressantes, mais connaître l'état les minutes suivantes l'est tout autant.

Le 10 mars 2021, a 0h35, départ de feu dans le local à batteries



Le 10 mars 2021, a 0h35, départ de feu sur un onduleur de la salle d’énergie n°2 de SBG2 (source : image extraite de la vidéosurveillance OVH, publiée par le BEA-RI)

  • Invité
OVH ne gardait pas les log des onduleurs. Donc on ne sais pas si les batteries étaient en décharge rapide, en surcharge (apport d'énergie excessif) ou dans un état stable.
Ce qui témoigne encore d'un certain "amateurisme" et d'économies de bouts de chandelles, il me semble.

Le rapport ne dit pas non plus si le départ de feu constaté au niveau des batteries s'est généralisé aux autres batteries du local.

Quel est le départ qui a permis au bâtiment de s'embraser ? Les batteries ? L'onduleur ? Les deux ? Les deux étant dans un local distinct, l'information est importante.

Ces deux photos extraite de la vidéosurveillance OVH, publiée par le BEA-RI sont très intéressantes, mais connaître l'état les minutes suivantes l'est tout autant.
Oui, et je m'étonne d'ailleurs que seules ces 2 images ait été communiquées. D'autant qu'il y a une différence entre la formation d'un arc électrique et un départ de feu: s'il n'y a pas de matériaux combustibles à proximité, l'arc peut être relativement sans conséquences. Ceci dit, l'onduleur semble bien "on fire", lui ;P

La corrélation entre l'intervention sur l'onduleur, onduleur qui est ensuite victime d'un dysfonctionnement catastrophique, n'aura sans doute également échappé à personne. Le BEA doit avoir les informations sur les raisons de l'intervention et les éléments qui ont été remplacés.

ldrevon

  • AS43142 Officiel Adeli
  • Expert
  • *
  • Messages: 645
C'est quand même étrange que les onduleurs n'aient pas de log en interne.. Les Riello en ont qui sont accessibles en web (pour le quidam) ou par les techniciens (en version plus détaillées)

06/03/22 12:19:39      start UPS Bypass bad
06/03/22 12:19:40      start UPS generic alarm
06/03/22 12:19:45      stop UPS Bypass bad
06/03/22 12:19:45      stop UPS generic alarm

bco_

  • Abonné Orange Fibre
  • *
  • Messages: 16
C'est quand même étrange que les onduleurs n'aient pas de log en interne.. Les Riello en ont qui sont accessibles en web (pour le quidam) ou par les techniciens (en version plus détaillées)

06/03/22 12:19:39      start UPS Bypass bad
06/03/22 12:19:40      start UPS generic alarm
06/03/22 12:19:45      stop UPS Bypass bad
06/03/22 12:19:45      stop UPS generic alarm
J'ai des Riello aussi avec une netman 204 dedans pour le SNMP et ca supporte même le remote syslog... Mais malheureusement tout le monde ne le fait pas. J'ai aussi des Gamatronic, qui eux ne supportent que l'export USB des logs

vivien

  • Administrateur
  • *
  • Messages: 48 042
    • Twitter LaFibre.info
Les onduleurs ont des logs en interne, mais si il ne sont pas remontés et sauvegardés à distance, il va être difficile de récupérer les log.

Je ne vois ça nul par, mais un outil (tournevis) laissé dans l'onduleur par mégarde par le technicien cela serait une piste plausible ?

Un bug logiciel c'est une piste plausible (sans problème matériel) ?

Dans ce type d'équipement (oliviermis évoquait 500kW ce qui semble plausible), la tension dépasse les 400 volts ?

vivien

  • Administrateur
  • *
  • Messages: 48 042
    • Twitter LaFibre.info
Vu que l'information m'est demandée : Il n'y avait pas de système d'extinction incendie automatique sur le datacenter OVH de Strasbourg en 2021
L'extinction incendie existait, si elle n'était pas automatique : C'était basé sur des hommes présents 24h/24 et des extincteurs.

Le rapport d’enquête BEA-RI confirme cette information qui était connue, cf le sujet OVH et la protection incendie qui date de 2013, bien avant l'incendie.

Extrait du rapport d’enquête BEA-RI :
Ces salles appelées aussi "salles énergie" étaient équipées d’une détection incendie mais ne disposaient d’aucun système d’extinction automatique.
[...]
Malgré l’arrivée rapide des secours, la conception du bâtiment, l’absence de système d’extinction automatique, le délai de mise en sécurité électrique du site et les moyens en eau sur la zone n’ont pas permis d’éviter l’embrasement généralisé de SBG2 et la propagation de l’incendie à des bâtiments voisins.
[...]
En matière de prévention des incendies, le site est équipé d’un système de détection combiné à la présence permanente de personnel formé à la manipulation des extincteurs. Il n’est toutefois pas équipé de système d’extinction automatique. La défense incendie du secteur est assurée par le réseau public constitué d’une unique ligne d’alimentation et d’un poteau incendie.
[...]
OVH a choisi de n’équiper aucun des cinq bâtiments de son datacenter de Strasbourg de système de protection incendie automatique. Pour rappel, un système de protection incendie peut avoir plusieurs fonctions :
• L’extinction de l’incendie,
• Le contrôle ou la temporisation de l’incendie, ce qui permet de contenir sa progression et de donner du temps à l’organisation et l’intervention des secours.
De surcroît, dans le cas d’une installation telle qu’un datacenter, il permet de mettre en œuvre des moyens en eau très tôt dans la séquence accidentelle, sans même attendre l’arrêt de la fourniture d’électricité, et sans exposer de personnel à un risque d’électrocution.
[...]
Les services de secours publics ne disposaient pour cette intervention que d’un poteau incendie qui délivrait un débit insuffisant (inférieur à 60m3/h). L’exploitant ne disposait pas non plus de réserve d’eau d’extinction en propre ni de moyen de pompage dans le canal du Rhin. Compte tenu de l’évolution rapide et défavorable du sinistre, ils ont rapidement sollicité l’appui du bateau pompe EUROPA qui est arrivé sur la zone à 3h00. [...] ce bateau a joué un rôle déterminant dans la gestion de l’incendie compte tenu de l’absence de moyens d’extinction propres de l’exploitant et de la capacité limitée du réseau incendie (DECI) sur la zone. En l’absence de tels moyens les conséquences de l’incendie auraient probablement été plus importantes sur les bâtiments adjacents.
[...]
Un système de protection automatique et asservi à la détection est conçu en fonction de l’objectif recherché : l’extinction de l’incendie, la réduction de l’incendie ou le contrôle de l’incendie.
[...]
Un datacenter tel que celui d’OVH n’étant ni un ERP ni un IGH, les exigences réglementaires en matière de moyens en eau d’extinction sont essentiellement portées par la réglementation des ICPE au titre de la charge de batteries et de l’exploitation de groupes électrogènes. L’enquête a permis de constater que ces premières exigences n’étaient pas respectées.
Mais au-delà de cette question de conformité, le BEA-RI considère que ces moyens, même présents, n’auraient probablement pas permis d’éviter l’embrasement de SBG2, faute de mise en œuvre rapide par rapport à la cinétique d’incendie. Cet accident montre donc qu’en l’absence de recoupement suffisamment dimensionné, l’incendie généralisé est un scénario plausible auquel doit pouvoir faire face un exploitant de datacenter et, en cas de défaut de celui-ci, le service de secours publics local. Il est donc important d’anticiper cette situation en terme de stratégie d’intervention et de dimensionnement des moyens en eau.



La position d'OVH étaient quand on les interrogeait avant cet incendie qu'ils avaient sur chaque site un système de détection combiné à la présence permanente de personnel formé à la manipulation des extincteurs.
OVH avait bien un système de détection incendie efficace et du personnel 24h/24 sur site capable d’intervenir très rapidement. Cela a été démontré le 10 mars 2021.

Une extinction par extincteur est adapté au début de nombreux sinistres. Par exemple, un début d'incendie déclenché typiquement par une alimentation de PC défectueuse. Le personnel sera probablement sur place avant la moindre flamme et il n'y aura aucun impact autre que le serveur qui est a l'origine du sinistre. Le rapport d’enquête BEA-RI le montre, OVH n'était pas préparé pour un incendie de grande ampleur, un incendie qui devient très vite incontrôlable : Pas de procédure pour éteindre l'électricité des bâtiments, pas d’arrivée en eau suffisante (heureusement qu'il y avait ce bateau Franco-Allemand).

L'incendie d'OVH de Strasbourg du 10 mars 2021 semble avoir été rapide. On n'a pas la vidéo montrant la vitesse de propagation, mais devant un onduleur en folie, un extincteur semble dérisoire.

(la photo est prise au tout début, quand le personnel est arrivé dans la salle, deux minutes plus tard, la situation devait être déjà dégradée).

Pour donner une image (un peu exagérée je l'avoue), c'est comme si les ouvriers de ligne d'extrusion d'aluminium étaient formés à éteindre un début d'incendie avec un extincteur. On voit bien que pour certains types de feu avec une source d'énergie (énergie électrique pour OVH, huile + aluminium en fusion ci-dessous), c'est inutile.

Impressionnant !

Panne hydraulique sur une ligne d'extrusion d'aluminium de l'entreprise d'aluminium Alueuropa SA à Séville, en Espagne.


La situation se dégrade à une vitesse incroyable. Un plafond suspendu dans un endroit comme celui-ci (extrusion d'aluminium à plus de 1000 degrés) est clairement une mauvaise idée.

Je me demande si un arrêt d'urgence enfoncé aurait permis d'éviter que cela dégénère autant. Cela n'aurait permis que quelques secondes de pulvérisation par le haut, au lieu d'un flux constant.




Par chance, il n'y a aucun blessé.

Je pense que suite à l'incendie OVH s'est ou va équiper tous ses locaux d'une extinction incendie automatique et efficace.

D'autres exploitant de datacenter qui avaient eux aussi pas pris en compte un embrasement généralisés se sont équipés ou y réfléchissent.

Jusqu'à présent, pour de nombreux acteurs un incendie doit pouvoir se traiter sans couper les serveurs. Les moyens d'extinctions qui sont mis en place permettent d'éteindre des incendies de petit taille (alimentation de serveur) mais pas un onduleur en folie comme dans le cas d'OVH, alimenté par une puissante source d'énergie (qu'il aurait fallu couper rapidement pour pouvoir éteindre l'incendie).

Il y a une prise de conscience avec cet incendie qu'il faut se préparer à l'impensable, c'est à dire un incendie qui oblige d'éteindre le datacenter et de protéger le bâtiment pour éviter une propagation, quitte à ne pas permettre un redémarrage immédiat des serveurs.

Damien

  • Expert
  • *
  • Messages: 1 807
@Vivien, ta conclusion me semble assez évidente. Il serait absurde que OVH, et même d'autres datacenters, ne tirent aucune leçon de cet incendie.
Les services de secours aussi se sont probablement adaptés pour savoir comment agir dans ce type de locaux auxquels ils ne sont pas habitués.
Il était d'ailleurs probablement indispensable que ça arrive pour que les acteurs prennent conscience de ce qui est possible.
Pas de chance, ça tombe sur OVH.

vivien

  • Administrateur
  • *
  • Messages: 48 042
    • Twitter LaFibre.info
Attention, je n'ai pas dit que tous les datacenter ne savent pas gérer un feu d'onduleur comme il y a eu sur SBG2, mais certains.
Et la question risque d'être posée par les clients.

D'autres datacenter ont isolés les onduleurs dans une pièce spécifique avec une résistance au feu > 1h et ce qui a manqué à OVH, la capacité de couper l’électricité sans entrer dans ce local.

Concernant OVH Strasbourg, je me demande pourquoi les techniciens OVH du site (ceux qui ont appelés les pompiers) n'ont pas pu couper l’électricité sur les deux postes haute tension 20 MW pour deux raisons : arrêter l'onduleur fou et les arcs électriques (retour des pompiers : "Arcs électriques de plus d'un mètre autour de la porte du local "énergie" => Flash impressionnants et bruits assourdissants") et pour permettre aux pompiers d'intervenir en balançant de l'eau sur le bâtiment.

Il a été dit (je ne sais pas si c'est vrai) que le point de coupure était dans la salle énergie de SBG2 où arrivait les deux lignes, mais je suis quand même étonné qu'il ne soit pas possible de couper l'énergie au niveau des deux postes.




Voici ce que dit le rapport :

L’intervention de Strasbourg Électricité Réseaux

Strasbourg Électricité Réseaux (SER) est prévenu par le SIS 67 à 00h52. Leur équipe d’astreinte est mobilisée et arrive sur les lieux à 01h27. Préalablement à leur arrivée, SER a été interrogé pour savoir s’il était possible que leurs agents interviennent au niveau du poste secondaire qui alimente SBG2. SER a fait savoir que dans la mesure où ce poste appartient au client, une telle intervention n’était pas envisageable.

À leur arrivée sur les lieux, l’incendie s’est déjà développé. Une intervention sur le poste secondaire est exclue et SER n’obtient pas l’autorisation de couper l’alimentation électrique du site au niveau du poste client en raison des risques liés à l’incendie. La décision est donc prise de couper le courant au niveau du poste source amont. La coupure sera effectuée à distance et sera effective à 01h50.

Pour finir, SER ne nous a signalé aucun évènement anormal sur le réseau d’alimentation électrique du secteur au cours de cette nuit.


A 2h00, 10 minutes après la coupure du 20 000 volts, les pompiers reportent l'embrasement généralisé de SBG2, mais que ce dernier a encore des éléments sous tension, probablement avec les batteries de la salles énergie 1 de SBG1.
Voici l'état du bâtiment à 2h50, soit 1 heure après la coupure de l'arrivée électrique 20 000 volts qui a eu lieu à 1h50 :



vivien

  • Administrateur
  • *
  • Messages: 48 042
    • Twitter LaFibre.info
Ce soir (dimanche 12 juin), je serais à 21h00 sur la chaine Twitch de Yorzian pour discuter de l’incendie du datacenter OVH de Strasbourg de 2021 et du rapport du BEA-RI.

N'hésitez pas à venir discuter avec nous.



xp25

  • Abonné RED by SFR fibre FttH
  • *
  • Messages: 6 266
RDV pris  ;)