Auteur Sujet: Coupure électrique Online DC2 : Des dizaines de switchs HS  (Lu 36652 fois)

0 Membres et 1 Invité sur ce sujet

Leon

  • Client SFR sur réseau Numericable
  • Modérateur
  • *
  • Messages: 5 981
Coupure électrique Online DC2 : Des dizaines de switchs HS
« Réponse #12 le: 06 juillet 2013 à 08:55:06 »
Voici le compte-rendu d'incident d'Arnaud (directeur Online - Iliad Datacenter):
Ce ne sont pas seulement 2 groupes, mais bien 3 sur 6 qui sont tombés en panne!

Il faudra que je retrouve également, mais il me semble que c'est Arnaud qui disait que la redondance ERDF c'était de la foutaise, et qu'il ne fallait pas faire confiance aux offres "secourues" d'ERDF... alors qu'il s'étonne ici de la défaillance sur ses 3 lignes ERDF.

Coté datacenter :

Le datacenter DC2 est composé de 7 chaînes électriques indépendantes :
- A et B destinées aux salles en architecture N+1, dont la salle 103 (Dedibox)
- C, D, E destinées aux salles en architecture N+N et a la salle opérateur. Ces chaînes ne sont pas évoquées dans le présent rapport car n’ont subit aucune interruption ou dégradation de service. De même pour les chaînes F1 et F2 : destinées à la climatisation, en architecture N+N

10:21:14 le poste source EDF « Vitry-Nord » subit un dysfonctionnement grave impactant (explosion du transformateur) : Ivry sur Seine, Vitry sur Seine, Charenton, Maison Alfort. Nos 4 câbles haute tension alimentant le datacenter (2 câbles de travail, 2 de secours) sont simultanèment coupés.

10:21:33 les 7 chaînes électriques basculent sur groupe électrogène avec succès, sans coupure.

10:21:34 les onduleurs A4 et A5 de la chaîne A sont en défaut, sans coupure et sans conséquence compte tenu de la redondance N+2 de la chaine électrique.

10:22:45 Un premier groupe électrogène dédié à la climatisation (GE-F1) subit des pompages moteurs et s’arrête en défaut « hors tolérance fréquence». La chaîne électrique associée bascule automatiquement sur le groupe électrogène de secours (GE-S) à 10:23:08.
Le temps de la bascule, compte tenu des deux coupures très rapprochées, la température des salles augmente très légèrement 3°C sans conséquence.

10:26:30 Un deuxième groupe électrogène, celui de la chaîne A (GE-A), s’arrête en défaut « électronique ».
La chaîne électrique associée bascule automatiquement sur le groupe électrogène de secours (GE-S), sans coupure et sans conséquence.

11:15:00 Communication aux clients d’une difficulté majeure sur le datacenter. Escalade et envoie de renforts depuis DC3 et depuis le siège de Paris. Escalade au service dépannage du poste source d'ErDF

11:18:11 Le groupe électrogène de secours (GE-S) s’arrête en défaut mécanique majeur.
La chaîne A ne disposant plus de ni 1- l’arrivée principale EDF (composée de 4 câbles indépendants), ni son groupe électrogène GE-A, ni groupe électrogène de secours GE-S, les 6 sources électrique possibles étant indisponibles, les salles sont alimentées depuis les batteries des onduleurs.

11:29:18 Fin d’autonomie batterie des onduleurs de la chaîne A. Coupure de l’alimentation ondulée de la salle 103

11:41:23 Remise en service du groupe électrogène GE-A en « marche forcée » (arrêt de son automate, les défauts sont inhibés et ignorés) pour réalimenter la chaîne A. L’opération fonctionne, retour de l’énergie dans toutes les salles de 11:48 à 11:54 Arrivée des renforts et de la direction

11:54:20 Retour de l’électricité sur nos 4 câbles haute tension. Les chaînes rebascules sur EDF sans interruption de service à l’exception de la chaîne A, que nous laissons sur groupe électrogène afin de charger les batteries et basculer en toute sécurité

16:28:20 Fin de charge des batteries des onduleurs. La chaîne électrique A est basculée manuellement sur EDF avec succès.
De 11:45 à 19:30 Les onduleurs A4 et A5 sont réparés, les groupes électrogènes GE-F, GE-A, GE-S sont réparés. Plusieurs essais sont réalisés pour s’assurer du bon fonctionnement de l’infrastructure.

23:00 Départ des renforts, départ des entreprises de maintenance, communication du rapport préliminaire aux clients.
(rapport définitif d'ici 48 heures, le temps d'analyser toutes les données récupérées)

Coté Dedibox :
3000 serveurs et la console de gestion ont étés impactés par la coupure d'énergie (moins de 7% du parc).
Il s'agit principalement d'anciens serveurs Dell (gamme 2010) et d'offres de destockage. Pour la très grande majorité du parc de cette salle, cette interruption a été très courte et n'a pas eut d'impact important.

A 12:20, 85% du parc à été remis en service. 13 switchs défaillants ont étés remplacés

A 14:00, 250 serveurs indisponible nécessitant une intervention hardware.

A 14:30, il ne restait qu'une centaine de serveurs indisponibles. Un bug avec les ip failover et l'ipmi est corrigé

A 23:00, il ne reste qu'une dizaine de serveurs nécessitant une intervention plus poussée, notamment au niveau des cartes raid.

Conclusion
Cette interruption est liée à la défaillance sur une période de moins d’une heure de 3 groupes électrogènes sur les 6 du datacenter.
L'interruption, très partielle, à concernée 30% de notre datacenter et 7% du parc Dedibox pendant une durée 12 minutes.

Malgré toutes nos précautions dans le design de nos infrastructures, prévoyant systématiquement des onduleurs redondants (N+2), un groupe électrogène de secours installé sur site en permanent, le scénario peu probable de 1- une coupure simultanée de 4 arrivées EDF (sur 4) et  2- la défaillance de 3 groupes électrogènes (sur 6) c'est produit.

Nous le vivons comme un échec et souhaitons vous présenter nos excuses pour cet incident indépendant de notre volonté et qui ne remet pas en cause ni la fiabilité ni le design de nos infrastructures.

Nos datacenters sont régulièrement testés, au minimum 6 heures tous les 3 mois, en charge, avec une coupure réelle réalisée au niveau des arrivées EDF. Les derniers essais (par coupure des arrivées EDF pendant plus de 15 heures sur 3 jours) ont étés réalisés les 28/05 29/05 et 30/05, avec succès. En tout, près de 65 heures d'essais réels et en charge du datacenter ont étés réalisés depuis 4 ans.

La maintenance mécanique annuelle des groupes électrogènes a eut lieu du Lundi 1/07 au Mercredi 03/07 qui n'avait également révélé aucun problème. De même pour les onduleurs qui ont eut leur visite constructeur il y a quelques semaines.

Dure loi de Murphy ...


Leon.

minidou

  • Abonné Orange Fibre
  • *
  • Messages: 403
  • FTTH 1 Gb/s sur Nantes (44)
Coupure électrique Online DC2 : Des dizaines de switchs HS
« Réponse #13 le: 06 juillet 2013 à 20:50:51 »
donc on a:
(GE-F1) subit des pompages moteurs et s’arrête en défaut (oui, moi non plus je ne savais pas ce que c'était, j'ai trouvé une petite explication ici)
(GE-A), s’arrête en défaut « électronique »
(GE-S) s’arrête en défaut mécanique majeur

il faut consulter un marabout!

Citer
Nos datacenters sont régulièrement testés, au minimum 6 heures tous les 3 mois, en charge, avec une coupure réelle réalisée au niveau des arrivées EDF. Les derniers essais (par coupure des arrivées EDF pendant plus de 15 heures sur 3 jours) ont étés réalisés les 28/05 29/05 et 30/05, avec succès. En tout, près de 65 heures d'essais réels et en charge du datacenter ont étés réalisés depuis 4 ans.
ils ont en effet l'air d'être sérieux (à part que mini 6heures tout les trois mois ça fait déjà 72heures en 3 ans, 96 en 4, pas 65)
pourquoi les tests de mai ont été fait sur 15 heures et trois jours? si l'on en croit les autres données, c'est très supérieure à la moyenne

corrector

  • Invité
Coupure électrique Online DC2 : Des dizaines de switchs HS
« Réponse #14 le: 06 juillet 2013 à 21:36:48 »
Vont-ils revoir le calcul de probabilité de panne simultanée?

vivien

  • Administrateur
  • *
  • Messages: 47 167
    • Twitter LaFibre.info
Coupure électrique Online DC2 : Des dizaines de switchs HS
« Réponse #15 le: 06 juillet 2013 à 23:14:04 »
Autre info d'Arnaud :
Oui, j'ai twitté comme quoi nous avions un soucis majeur une dizaine de minutes avant l'interruption lorsque nous n'avions plus aucune source d'énergie disponible pour alimenter les onduleurs de la chaine A...

Un des soucis que nous avons eut, c'est la quasi absence de réseaux de téléphonie mobile dans la zone pendant la coupure (toutes les antennes relais ayant subit également la coupure), ce qui n'a pas facilité du tout la communication avec les équipes de renfort sur le chemin.

Bref, beaucoup de choses à apprendre et améliorer suite à cet incident. On aura l'occasion de revenir en détail sur le déroulement de cette heure et demi dans les jours qui viennent.

Arnaud


Voici la chronologie des tweet mélangés avec les événements tels que décrits par Arnaud :

10:21:14 le poste source EDF « Vitry-Nord » subit un dysfonctionnement grave impactant (explosion du transformateur) : Ivry sur Seine, Vitry sur Seine, Charenton, Maison Alfort. Nos 4 câbles haute tension alimentant le datacenter (2 câbles de travail, 2 de secours) sont simultanèment coupés.

10:21:33 les 7 chaines électriques basculent sur groupe électrogène avec succès, sans coupure.

10:21:34 les onduleurs A4 et A5 de la chaine A sont en défaut, sans coupure et sans conséquence compte tenu de la redondance N+2 de la chaine électrique.

10:22:45 Un premier groupe électrogène dédié à la climatisation (GE-F1) subit des pompages moteurs et s’arrête en défaut « hors tolérance fréquence». La chaine électrique associée bascule automatiquement sur le groupe électrogène de secours (GE-S) à 10:23:08.
Le temps de la bascule, compte tenu des deux coupures très rapprochées, la température des salles augmente très légèrement 3°C sans conséquence.

10:26:30 Un deuxième groupe électrogène, celui de la chaine A (GE-A), s’arrête en défaut « électronique ».
La chaine électrique associée bascule automatiquement sur le groupe électrogène de secours (GE-S), sans coupure et sans conséquence.

10h35 : #dc2 coupure EDF. On tourne sur groupe. Plus d'infos a venir
=> "On tourne sur groupe" => 2 groupes sur 6 sont déjà HS et 2 onduleurs de la branche A sont HS

11h06 : #dc2 visiblement incident majeur chez ERDF. Pas d'ETA. On est sur GE la température redescend dans les salles

11:15:00 Communication aux clients d’une difficulté majeure sur le datacenter. Escalade et envoie de renforts depuis DC3 et depuis le siège de Paris. Escalade au service dépannage du poste source d'ErDF

11h15 : #dc2 la situation est très compliquée plus d'infos a venir.

11:18:11 Le groupe électrogène de secours (GE-S) s’arrête en défaut mécanique majeur.
La chaine A ne disposant plus de ni 1- l’arrivée principale EDF (composée de 4 câbles indépendants), ni son groupe électrogène GE-A, ni groupe électrogène de secours GE-S, les 6 sources électrique possibles étant indisponibles, les salles sont alimentées depuis les batteries des onduleurs.

11h25 : #dc2 nous avons un soucis branche A

11:29:18 Fin d’autonomie batterie des onduleurs de la chaine A. Coupure de l’alimentation ondulée de la salle 103

11h40 : #dc2 la voie A a coupée ça reviens mise a jour dans 20' renforts arrivent

11:41:23 Remise en service du groupe électrogène GE-A en « marche forcée » (arrêt de son automate, les défauts sont inhibés et ignorés) pour réalimenter la chaine A. L’opération fonctionne, retour de l’énergie dans toutes les salles

de 11:48 à 11:54 Arrivée des renforts et de la direction

11:54:20 Retour de l’électricité sur nos 4 câbles haute tension. Les chaines rebascules sur EDF sans interruption de service à l’exception de la chaine A, que nous laissons sur groupe électrogène afin de charger les batteries et basculer en toute sécurité

12h36 : #dc2 pendant la coupure EDF deux GE sur les 6 ont eut une panne mécanique. La voie A a coupée, tout est repartis

13h40 : Depuis 40min nos équipes sont en train de changer les switchs HS, on vous tiens au jus

13h52 : Les switchs des baies en salle 103 reviennent une à une. Pour info la S301 n'est pas impactée

16:28:20 Fin de charge des batteries des onduleurs. La chaine électrique A est basculée manuellement sur EDF avec succès.

Par contre, tout ne me semble pas cohérent avec la réalité dans ce compte rendu...
Cela me fait penser a la communication assez farfelue de TH2 lors de la dernière coupure électrique Incident électrique sur TH2 du 11 avril 2012 : La panne observé par les clients ne corespond pas a celle décrite et TH2 a annoncé avoir changé en quelques minutes un master pack, un équipement qui ne se change pas facilement.

corrector

  • Invité
Près de 14 000 foyers privés d’électricité autour de Vitry
« Réponse #16 le: 07 juillet 2013 à 01:58:09 »
Près de 14 000 foyers privés d’électricité autour de Vitry

La coupure d’électricité a été courte mais intense : elle a privé quelque 13 900 foyers, dont l’hôpital Charles-Foix à Ivry (Val-de-Marne), d’alimentation entre 10 h 20 et 11 h 30. «Un incident s’est produit sur le poste-source de Vitry qui transforme du 225000 V en 20 000 V. Le poste s’est mis en sécurité et a donc interrompu l’alimentation immédiatement, atteste ERDF.


Au total, la coupure a impacté 13 900 foyers sur les communes de Vitry, Ivry, Maisons-Alfort et Charenton, dont l’hôpital Charles-Foix d’Ivry qui a été rétabli lui, dès 11 heures». Entre-temps, l’établissement a pris le relais avec ses groupes électrogènes. «Très vite, l’agence de conduite, installée à Melun (Seine-et-Marne) a procédé à toutes les manoeuvres nécessaires à distance pour réalimenter les clients grâce à d’autres postes-sources. Tous nos clients avaient à nouveau de l’électricité dès 11 h 30». Pendant ce temps, les équipes d’ERDF interviennent sur le site de Vitry pour identifier l’origine de la panne et la réparer.

http://www.leparisien.fr/val-de-marne-94/pres-de-14-000-foyers-prives-d-electricite-autour-de-vitry-04-07-2013-2954041.php

Leon

  • Client SFR sur réseau Numericable
  • Modérateur
  • *
  • Messages: 5 981
Coupure électrique Online DC2 : Des dizaines de switchs HS
« Réponse #17 le: 07 juillet 2013 à 07:54:36 »
Vont-ils revoir le calcul de probabilité de panne simultanée?
Je pense qu'ils vont d'abord revoir le paramétrage des automates des groupes. Certains se sont visiblement mis en défaut alors qu'ils pouvaient encore tourner.

Citer
11:41:23 Remise en service du groupe électrogène GE-A en « marche forcée » (arrêt de son automate, les défauts sont inhibés et ignorés) pour réalimenter la chaine A. L’opération fonctionne, retour de l’énergie dans toutes les salles

C'est quand même fou de voir le manque de fiabilité d'équipements aussi chers et aussi critiques. Dans l'incident, on voit : 2 onduleurs HS, 3 groupes HS, et 13 switches Ethernet HS... Ca m'impressionne! Ce sont des équipements achetés avant tout pour leur fiabilité...

Par contre, il faudrait que Arnaud surveille sa communication. Il raconte quand même des bêtises. On va dire qu'il était sans doute un peu trop fâtigué après le stress de l'incident...
Citer
Cet incident [...] ne remet pas en cause ni la fiabilité ni le design de nos infrastructures.

Leon.
« Modifié: 07 juillet 2013 à 08:28:13 par leon_m »

corrector

  • Invité
Coupure électrique Online DC2 : Des dizaines de switchs HS
« Réponse #18 le: 07 juillet 2013 à 09:17:00 »
Par contre, il faudrait que Arnaud surveille sa communication. Il raconte quand même des bêtises. On va dire qu'il était sans doute un peu trop fâtigué après le stress de l'incident...
Citer
ne remet pas en cause ni la fiabilité
On va dire qu'il voulait dire que c'est un événement très très improbable qui a eu lieu, et que donc l'estimation du risque reste très faible.

minidou

  • Abonné Orange Fibre
  • *
  • Messages: 403
  • FTTH 1 Gb/s sur Nantes (44)
Coupure électrique Online DC2 : Des dizaines de switchs HS
« Réponse #19 le: 07 juillet 2013 à 09:35:44 »
et surtout qu'il veut rassurer ses clients

Leon

  • Client SFR sur réseau Numericable
  • Modérateur
  • *
  • Messages: 5 981
Coupure électrique Online DC2 : Des dizaines de switchs HS
« Réponse #20 le: 07 juillet 2013 à 09:44:09 »
On va dire qu'il voulait dire que c'est un événement très très improbable qui a eu lieu, et que donc l'estimation du risque reste très faible.
Là où je travaille (ingénierie électronique automobile), on fait beaucoup d'études de fiabilité, de sureté de fonctionnement. Donc on travaille beaucoup avec des événements redoutés très très peu probables qu'on essaye de gérer. Et il y a une règle absolue : si dans la conception, on estime qu'un événement est extrèmement improbable, et que l'événement redouté grave a été rendu fortement improbable (<10e-9 défaillance /heure), grâce à des redondances, des mécanismes de sécurité... et bien si cet événement redouté se produit quand même, ne serait-ce qu'une seule fois, c'est qu'il y a une couille dans la conception, c'est aussi simple que ça! Du coup, il faut revoir sa copie. La cause? Soit que les redondance n'en n'étaient pas vraiment (défaillances unitaires non indépendantes entre elles), soit que l'estimation de la défaillance unitaire était beaucoup trop optimiste (fiabilité des groupes ici), soit que les barrières de protections ne couvraient pas tous les cas de défaillance possible.

Bref, je pense que c'est exactement ce que vont faire les équipes d'Online/Iliad Datacenter : plancher en interne et avec leurs équipementiers pour comprendre pourquoi la défaillance a pu se produire alors qu'elle était très très improbable.

En ingénierie, on ne peut pas se contenter de "c'est la faute à pas de chance" ou du "tant pis, il faut espérer que ça ne se reproduise pas".

et surtout qu'il veut rassurer ses clients
Oui, je pense que c'est surtout ça. Mais la formulation est extrèmement maladroite, car justement, l'événement vient de prouver que la fiabilité de ses installations n'était pas si bonne que ça.

Leon.

BadMax

  • Client Free adsl
  • Expert
  • *
  • Messages: 3 481
  • Malissard (26)
Coupure électrique Online DC2 : Des dizaines de switchs HS
« Réponse #21 le: 07 juillet 2013 à 09:55:26 »
Sauf que dans ton milieu, tu as la maitrise de la conception des équipements et/ou tu as un large choix de composants. Idem en aéronautique où on est encore plus sensible à l'évaluation des risques.

En alimentation de type HT pour utilisation Datacenter, on n'a pas beaucoup de choix technologiques : les automates, y'en n'a pas 10000 sur le marché et tous peuvent tomber en panne. Y'a pas grand-chose à redire de l'architecture de Online DC2, les pannes en cascade ça arrivera toujours.

La seule piste d'amélioration que je vois est de tester plus régulièrement les groupes, test mensuel ou bi-hebdo à la place d'un test trimestriel.

Tiens, on pourrait aussi parler de la dépendance des moyens de communication vis-à-vis des réseaux de téléphonie externe. Ca, pour le coup, c'est très rare d'avoir prévu un plan de secours.




vivien

  • Administrateur
  • *
  • Messages: 47 167
    • Twitter LaFibre.info
Coupure électrique Online DC2 : Des dizaines de switchs HS
« Réponse #22 le: 07 juillet 2013 à 10:43:16 »
Ne prenez pas tout ce qui est dit pour la réalité, je persuadé que cela ne s'est pas déroulé comme indiqué. Le but est effectivement de rassurer un maximum les clients en mettant en place une histoire qui semble tenir debout.

10h21:14 Coupure ERDF.
10:21:33 Démarrage réussi du groupe électrogène dédié à la climatisation (GE-F1)
10:22:45 Le groupe électrogène dédié à la climatisation (GE-F1) subit des pompages moteurs et s’arrête en défaut « hors tolérance fréquence».
10:23:08 : La chaîne électrique de la climatisation bascule automatiquement sur le groupe électrogène de secours (GE-S)
11:54:20 : Retour de l’électricité sur nos 4 câbles haute tension. La chaîne électrique dédié à la climatisation sur EDF.

Entre la coupure ERDF et l’alimentation stable sur le second groupe (GE-S), il se passe moins de 2 minutes.

Officiellement, "Le temps de la bascule, compte tenu des deux coupures très rapprochées, la température des salles augmente très légèrement 3°C sans conséquence."

Une augmentation de 3°c en moins de deux minutes, c'est énorme. Maintenant la réalité, ce n'est pas 3°c mais 7°C : Synack a une sonde de température dans la salle en question, je vous laisse regarder le graphe que j'ai agrandis pour mieux voir.

Il y a un trait vertical toutes les heures :

On a bien une augmentation de la température à partir de 10h25 mais elle a continué pendant une demi-heure !

Visiblement il n'y a pas eu de climatisation de 10h22 à 10h50.

Le graphe montre également une nouvelle coupure de la climatisation vers 11h15.

On n'en sais pas plus car à 11h29 le courant est coupé :
11:29:18 Fin d’autonomie batterie des onduleurs de la chaine A. Coupure de l’alimentation ondulée de la salle 103

Au passage, ERDF explique que "Tous nos clients avaient à nouveau de l’électricité dès 11 h 30"

Bref, les explications de Online semblent bien éloignées de la réalité.

Nico

  • Modérateur
  • *
  • Messages: 44 472
  • FTTH 1000/500 sur Paris 15ème (75)
    • @_GaLaK_
Coupure électrique Online DC2 : Des dizaines de switchs HS
« Réponse #23 le: 07 juillet 2013 à 11:08:15 »
Tiens, on pourrait aussi parler de la dépendance des moyens de communication vis-à-vis des réseaux de téléphonie externe. Ca, pour le coup, c'est très rare d'avoir prévu un plan de secours.
Certains en ont fait les frais lors de grosses pannes (coucou les HLR) et ont revu leur copie chez les opérateurs !