Voici le compte-rendu d'incident d'Arnaud (directeur Online - Iliad Datacenter):
Ce ne sont pas seulement 2 groupes, mais bien 3 sur 6 qui sont tombés en panne!
Il faudra que je retrouve également, mais il me semble que c'est Arnaud qui disait que la redondance ERDF c'était de la foutaise, et qu'il ne fallait pas faire confiance aux offres "secourues" d'ERDF... alors qu'il s'étonne ici de la défaillance sur ses 3 lignes ERDF.
Coté datacenter :
Le datacenter DC2 est composé de 7 chaînes électriques indépendantes :
- A et B destinées aux salles en architecture N+1, dont la salle 103 (Dedibox)
- C, D, E destinées aux salles en architecture N+N et a la salle opérateur. Ces chaînes ne sont pas évoquées dans le présent rapport car n’ont subit aucune interruption ou dégradation de service. De même pour les chaînes F1 et F2 : destinées à la climatisation, en architecture N+N
10:21:14 le poste source EDF « Vitry-Nord » subit un dysfonctionnement grave impactant (explosion du transformateur) : Ivry sur Seine, Vitry sur Seine, Charenton, Maison Alfort. Nos 4 câbles haute tension alimentant le datacenter (2 câbles de travail, 2 de secours) sont simultanèment coupés.
10:21:33 les 7 chaînes électriques basculent sur groupe électrogène avec succès, sans coupure.
10:21:34 les onduleurs A4 et A5 de la chaîne A sont en défaut, sans coupure et sans conséquence compte tenu de la redondance N+2 de la chaine électrique.
10:22:45 Un premier groupe électrogène dédié à la climatisation (GE-F1) subit des pompages moteurs et s’arrête en défaut « hors tolérance fréquence». La chaîne électrique associée bascule automatiquement sur le groupe électrogène de secours (GE-S) à 10:23:08.
Le temps de la bascule, compte tenu des deux coupures très rapprochées, la température des salles augmente très légèrement 3°C sans conséquence.
10:26:30 Un deuxième groupe électrogène, celui de la chaîne A (GE-A), s’arrête en défaut « électronique ».
La chaîne électrique associée bascule automatiquement sur le groupe électrogène de secours (GE-S), sans coupure et sans conséquence.
11:15:00 Communication aux clients d’une difficulté majeure sur le datacenter. Escalade et envoie de renforts depuis DC3 et depuis le siège de Paris. Escalade au service dépannage du poste source d'ErDF
11:18:11 Le groupe électrogène de secours (GE-S) s’arrête en défaut mécanique majeur.
La chaîne A ne disposant plus de ni 1- l’arrivée principale EDF (composée de 4 câbles indépendants), ni son groupe électrogène GE-A, ni groupe électrogène de secours GE-S, les 6 sources électrique possibles étant indisponibles, les salles sont alimentées depuis les batteries des onduleurs.
11:29:18 Fin d’autonomie batterie des onduleurs de la chaîne A. Coupure de l’alimentation ondulée de la salle 103
11:41:23 Remise en service du groupe électrogène GE-A en « marche forcée » (arrêt de son automate, les défauts sont inhibés et ignorés) pour réalimenter la chaîne A. L’opération fonctionne, retour de l’énergie dans toutes les salles de 11:48 à 11:54 Arrivée des renforts et de la direction
11:54:20 Retour de l’électricité sur nos 4 câbles haute tension. Les chaînes rebascules sur EDF sans interruption de service à l’exception de la chaîne A, que nous laissons sur groupe électrogène afin de charger les batteries et basculer en toute sécurité
16:28:20 Fin de charge des batteries des onduleurs. La chaîne électrique A est basculée manuellement sur EDF avec succès.
De 11:45 à 19:30 Les onduleurs A4 et A5 sont réparés, les groupes électrogènes GE-F, GE-A, GE-S sont réparés. Plusieurs essais sont réalisés pour s’assurer du bon fonctionnement de l’infrastructure.
23:00 Départ des renforts, départ des entreprises de maintenance, communication du rapport préliminaire aux clients.
(rapport définitif d'ici 48 heures, le temps d'analyser toutes les données récupérées)
Coté Dedibox :
3000 serveurs et la console de gestion ont étés impactés par la coupure d'énergie (moins de 7% du parc).
Il s'agit principalement d'anciens serveurs Dell (gamme 2010) et d'offres de destockage. Pour la très grande majorité du parc de cette salle, cette interruption a été très courte et n'a pas eut d'impact important.
A 12:20, 85% du parc à été remis en service. 13 switchs défaillants ont étés remplacés
A 14:00, 250 serveurs indisponible nécessitant une intervention hardware.
A 14:30, il ne restait qu'une centaine de serveurs indisponibles. Un bug avec les ip failover et l'ipmi est corrigé
A 23:00, il ne reste qu'une dizaine de serveurs nécessitant une intervention plus poussée, notamment au niveau des cartes raid.
Conclusion
Cette interruption est liée à la défaillance sur une période de moins d’une heure de 3 groupes électrogènes sur les 6 du datacenter.
L'interruption, très partielle, à concernée 30% de notre datacenter et 7% du parc Dedibox pendant une durée 12 minutes.
Malgré toutes nos précautions dans le design de nos infrastructures, prévoyant systématiquement des onduleurs redondants (N+2), un groupe électrogène de secours installé sur site en permanent, le scénario peu probable de 1- une coupure simultanée de 4 arrivées EDF (sur 4) et 2- la défaillance de 3 groupes électrogènes (sur 6) c'est produit.
Nous le vivons comme un échec et souhaitons vous présenter nos excuses pour cet incident indépendant de notre volonté et qui ne remet pas en cause ni la fiabilité ni le design de nos infrastructures.
Nos datacenters sont régulièrement testés, au minimum 6 heures tous les 3 mois, en charge, avec une coupure réelle réalisée au niveau des arrivées EDF. Les derniers essais (par coupure des arrivées EDF pendant plus de 15 heures sur 3 jours) ont étés réalisés les 28/05 29/05 et 30/05, avec succès. En tout, près de 65 heures d'essais réels et en charge du datacenter ont étés réalisés depuis 4 ans.
La maintenance mécanique annuelle des groupes électrogènes a eut lieu du Lundi 1/07 au Mercredi 03/07 qui n'avait également révélé aucun problème. De même pour les onduleurs qui ont eut leur visite constructeur il y a quelques semaines.
Dure loi de Murphy ...
Leon.