Le texte complet :
Bonjour,
Voici le post-mortem de l'incident.
Le jeudi 9 novembre, à 7 h 04, le site de Strasbourg, hébergeant 4 datacentres, a été privé d’énergie. Malgré toutes les sécurisations mises en place, la coupure électrique s’est propagée dans les datacentres et a provoqué un arrêt électrique de 40 386 serveurs hébergés sur le site.
À 10 h 39 le site a été réalimenté, puis les services ont progressivement redémarré. A 18 h 00, 71 % des serveurs étaient fonctionnels, et le vendredi 10 novembre à 23 heures, 99 % des serveurs étaient fonctionnels. Une minorité de services a été affecté jusqu’au dimanche 12 novembre.
Déroulé de l’incident en temps réel (jeudi 9 novembre) :
----------------------------------------------------------
7h04:07 : disjonction du côté d’Électricité de Strasbourg Réseau (ESR) et perte de l’alimentation électrique des deux lignes.
7h04:17 : les groupes électrogènes haute tension (HT) ne démarrent pas.
7h12:48 : l’onduleur 6 (UPS) arrive en fin d’autonomie batterie.
7h15:48 : l’onduleur 5 arrive en fin d’autonomie batterie.
7h17:25 : l’onduleur 2 arrive en fin d’autonomie batterie.
7h18:00 : les premières tentatives manuelles de redémarrage des groupes HT ont échoué.
7h18:39 : l’onduleur 1 arrive en fin d’autonomie batterie.
7h19:19 : l’onduleur 4 arrive en fin d’autonomie batterie.
7h21:00 : l’onduleur 3 arrive lui aussi en fin d’autonomie batterie.
7h21:00 : les salles de routage ne sont plus alimentées électriquement.
7h21:03 : nouvelle tentative manuelles de démarrage du groupe HT numéro 1.
7h22:42 : nouvelle tentative manuelles de démarrage du groupe HT numéro 2.
7h30 : la cellule de crise locale est opérationnelle.
7h50 : la cellule de crise centrale au siège de Roubaix est opérationnelle.
Entre 7h50 et 10h39 : multiples tentatives manuelles de redémarrage des groupes électrogènes accompagnées par nos experts en génie électrique.
10h39 : ESR rétablit l’alimentation secteur.
10h58 : les routeurs sont de nouveau joignables.
11h : les interventions sur les serveurs le nécessitant sont en cours.
14h : arrivée d’une première équipe renfort
16h : des renforts venus de nos sites de Francfort (Allemagne) et de Roubaix arrivent.
17h30 : un camion de 38 tonnes rempli de pièces détachées arrive sur place.
22h : 97 % des serveurs fonctionnent, 91 % répondent au ping.
Quelle est la cause de la disjonction côté ESR ?
------------------------------------------------
L’ensemble du site est alimenté par 1 alimentation électrique de 20MVA réalisée avec 2 câbles de 20kV. La cause de la disjonction est liée à une altération d’un des 2 câbles souterrains, qu’ESR a réparé rapidement. Les causes de l’altération de ce câble ne sont pas encore déterminées à date. Des investigations sont en cours par ESR.
Pourquoi la perte d’un câble a entraîné une coupure d’alimentation ?
--------------------------------------------------------------------
Le site de Strasbourg est alimenté par deux câbles délivrant 20MVA et donc connectés sur le même disjoncteur. Le déclenchement du disjoncteur a entraîné la coupure des deux lignes.
Pourquoi les générateurs haute tension ne se sont-ils pas mis en route ?
------------------------------------------------------------------------
SBG1 et SBG4 sont alimentés par 2 groupes électrogènes (HT), de 2MVA chacun, qui prennent le relais en cas de coupure électrique. L’inverseur normal/secours motorisé n’a pas rempli sa fonction correctement et n’a pas démarré les groupes électrogènes.
Après investigation, nous avons constaté que l’ordre de démarrage des groupes haute tension (HT) n’avait pas été envoyé par l’automate pilotant l’inverseur.
Le fabriquant de cet automate est venu l’expertiser. Il s’avère qu’il était bloqué en défaut « automatisme verrouillé », ce qui explique l’absence de démarrage des groupes HT. Des investigations sont en cours pour comprendre l’origine de ce blocage.
L’équipe d’intervention du fabricant a remis l’automate en état de fonctionnement normal. Nous n’avons pour l’instant pas d’explication à cette erreur. En l’attente des conclusions, nous assurons la permanence en roulement d’une personne dédiée 24 heures/24 et 7 J/7 afin d’être en mesure de forcer la bascule manuellement pour parer à un éventuel nouveau défaut de l’automate.
Dans les prochains jours, nous allons réaliser le test en charge du site ce qui nous permettra de valider le bon fonctionnement de l’automate.
Pourquoi les tentatives de démarrage des groupes HT ont-elles échoué ?
----------------------------------------------------------------------
Le datacentre SBG2 est alimenté avec 2 groupes électrogènes BT de 1.4MVA chacun. L’un de ces 2 groupes BT était en « mode maintenance ». En « mode maintenance », dans le cas d’une coupure électrique, les 2 groupes électrogènes HT de SBG1 fournissent l’énergie à SBG2, à la place du groupe électrogènes BT en maintenance.
Jeudi le 9 novembre, lorsque que le site a été privé d’énergie, l’inverseur normal/secours motorisé n’a pas rempli sa fonction correctement et n’a pas donné l’ordre de démarrage aux groupes HT.
Nous avons donc procédé à des tentatives de démarrage manuelles.
Pour faire fonctionner la charge électrique de SBG1, SBG4 et SBG2 avec l’un des deux groupes BT en « mode maintenance », il faut absolument que les 2 groupes HT fonctionnent ensemble afin de fournir 4MVA. Comme les 2 groupes électrogènes HT ne sont pas parvenus à se synchroniser, nous avons alors découplé les 2 groupes électrogènes HT pour les faire fonctionner séparèment. Un groupe seul délivrant uniquement 2MVA ne peut tenir la charge demandée et il s’arrête. Nous avons effectué de multiples essais dans différentes configurations, sans succès.
Combien de temps a-t-il fallu pour rétablir les services ?
----------------------------------------------------------
Des moyens exceptionnels ont été mis en place afin de rétablir au plus vite les services.
État des lieux général :
------------------------
Jeudi à 22 heures, 97 % des serveurs (hardware) étaient de nouveau fonctionnels ainsi que 91 % des services (software). Vendredi à minuit, 99 % des serveurs étaient de nouveau opérationnels ainsi que 96,2 % des services.
Dans le détail :
Private Cloud :
----------------
Jeudi 9 novembre
· 23h : 78,59% des vCenters opérationnels
Vendredi 10 novembre
· 5h : 100% des vCenters opérationnels
Object Storage/Cloud Archive :
-------------------------------
Jeudi 9 novembre, 13h35 : 100 % opérationnel
PCS :
-----
Jeudi 9 novembre, 13h35 : PCS/PCA 100% opérationnel
PCI/VPS* : (*zoning PCI : les « régions PCI » ont une nomenclature différente de celle des datacenters)
------------------------
11h30 : API est UP sur le région SBG1/SBG2/SBG3
17h : 98% instances OK région SBG3
20h00 : 98% instances OK région SBG1
21h00 : 92% instances OK région SBG2
Vendredi 10/11
16h00 : 100% instances OK région SBG1
16h30 : 100% instances OK région SBG2
Samedi 11/11
18h : 100% instances OK région SBG3
SD :
----
Jeudi 9/11
21h : 93,05% des serveurs dédiés sont opérationnels
Vendredi 10/11
17h : 99,1% des serveurs dédiés sont opérationnels
Comment avez-vous géré la situation ?
--------------------------------------
Dès 7 h 50, une cellule de crise est activée à Roubaix afin de coordonner toutes les actions des équipes. Octave Klaba, le CEO et fondateur d’OVH, rend compte de l’évolution de la situation en temps réel, via les réseaux sociaux. Des explications détaillées sont aussi fournies sur la tâche travaux.
En parallèle, les équipes support françaises s’organisent avec leurs homologues québécoises pour répondre à un maximum de sollicitations. Les clients Grands Comptes concernés sont contactés afin de leur apporter des solutions rapides et concrètes.
À Strasbourg, les équipes datacentres sont vite renforcées par des techniciens venus de nos centres de données allemands (Francfort) et français (Roubaix). Un véritable pont routier et ferroviaire est mis en place. Vers 17 h 30, un camion de 38 tonnes provenant du centre logistique d’OVH en métropole lilloise, leur apporte toutes les ressources matérielles additionnelles nécessaires pour les heures à venir. Plusieurs camions arriveront les jours suivants, suite à la mise en place d’une astreinte logistique à Roubaix.
Ces équipes ont ainsi travaillé sans relâche, nuit et jour, pour rétablir les services de tous les clients, allant jusqu’à justifier l’organisation et la mise en place d’un pont aérien entre Lille et Strasbourg afin d’accélérer les rotations des équipes présentes sur place durant le week-end et toute la semaine.
Quel est le plan d’action mis en place suite à cet évènement ?
---------------------------------------------------------------
Comme évoqué précédemment, nous avons immédiatement pris des mesures pour proscrire ce type d’incident à Strasbourg (SBG) ainsi que sur l’ensemble de nos sites.
Ce plan d’actions va se déployer en 2 phases.
À court terme
-------------
Nous avons demandé un rapport détaillé au fournisseur de l’automate.
Puisque le basculement de l’automate normal/secours motorisé n’a pas fonctionné, nous avons une présence dédiée 24 heures sur 24 et 7 jours sur 7, afin de pouvoir réaliser manuellement la manœuvre en cas de non-fonctionnement de l’automatisme. Cette astreinte sécurise le site en attendant qu’un test en charge puisse confirmer le bon fonctionnement de l’automate.
Pour la partie inverseur normal/secours, nous allons rapidement remplacer la partie automatisme par un automate « maison », qui nous permettra d’en maîtriser complètement le fonctionnement et de le monitorer. Un système identique est déjà en production à Gravelines.
Nous avons demandé un rapport détaillé à ESR concernant l’origine de l’avarie.
Une étude de faisabilité concernant le raccord d’une deuxième arrivée électrique de 20MVA est également lancée. En attendant, nous avons lancé une 2eme étude : la mise en place de 2 disjoncteurs isolés, un par câble, ce qui permettrait de secourir un éventuel défaut sur l’un des 2 câbles.
Nous allons effectuer la séparation du réseau électrique de SBG2 vis-à-vis de SBG1/SBG4 ainsi que la séparation du futur SBG3, vis-à-vis de SBG2 et SBG1/SBG4. De cette manière, chaque datacentre disposera de son alimentation de secours indépendante.
Un audit électrique est également en cours pour l’ensemble de nos sites.
À noter : à l’heure actuelle, lorsqu’un serveur est commandé sur le site de Strasbourg, il apparaît par défaut au sein de l’espace client comme hébergé au sein de SBG1, même s’il est hébergé à SBG2 ou SBG4. C’est un bug d’affichage. Cette anomalie sera corrigée très rapidement afin de laisser apparaître le datacentre réel au sein duquel le serveur est hébergé.
À long terme
------------
La technologie basée sur les containers maritimes ne sera plus utilisée par OVH. En effet, elle n’a été utilisée que pour construire SBG1 et SBG4, et hérite des imperfections de design liées à la faible ambition initialement prévue pour le site. Aujourd’hui, nous réalisons qu’elle n’est plus adaptée aux exigences de notre métier et aux normes OVH. Nous allons donc démanteler SBG1 et SBG4.
Pour cela, une migration de l’ensemble des services de nos clients hébergés sur SBG1 et SBG4 sera opérée vers SBG2 et SBG3 ou sur d’autres datacentres OVH.
Nous sommes sincèrement désolés pour cette panne et nous faisons le nécessaire afin que ce type d'incident ne se reproduise plus.
Amicalement
Octave