La Fibre

Datacenter et équipements réseaux => Datacenter => Opcore Opcore / Scaleway Datacenter => Discussion démarrée par: Leon le 04 juillet 2013 à 21:14:49

Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: Leon le 04 juillet 2013 à 21:14:49
Coupure chez Online malgré le niveau de redondance annoncé...

C'est bien du 2N et c'est bien totalement conforme au design tier4, ca offre même une sécurité supplèmentaire intéressante.
C'est une astuce technique (que nous avons documenté dans un cahier des charges "ECS 2.0" que nous allons publier cette année, on en parle dans le RSE du groupe disponible en ligne) qui permet d'augmenter considérablement la puissance utilisée sur chaque chaine, et donc son rendement, en assurant un taux de disponibilité strictement identique. Pas mal de nouveaux datacenters ont repris notre idée.

Explications techniques :
- En temps normal, tu as deux chaines A et B qui sont strictement indépendantes, compartimentées, maintenables sans coupure, chargées en temps normal à maximum 50%.
Depuis ces deux chaines, les baies sont distribuées en double alimentation à raison de 50% sur chaque chaine A et B. Même chose pour la climatisation. En pratique, tu ne dépassera jamais 40%, là ou les équipements sont les moins efficients.
Si la chaine A a un défaut, 100% des baies seront en mode dégradé sur la chaine B qui sera à 100% de charge.

- En Hexaload, tu as 4 chaines primaires, A B C D qui sont strictement indépendantes, compartimentées, maintenables sans coupure (dans le sens de l'Uptime Institute), chargées au maximum à 75%.
Les baies sont alimentées depuis 2 chaines parmi 6 combinaisons (A-B, A-C, A-D, B-C, B-D, C-D) à raison de 50% sur chaque voie.
En pratique, on divise chaque salle de 1600m2 en 6 cages de 250m2 alimenté par deux chaines (ce qui donne les 6 combinaisons sur l'ensemble des 1600m2).
Si D à un défaut, 25% des baies seront en mode dégradé sur les chaines A, B et C, qui seront chargées à 100%. Les 75% autres baies seront toujours en double alimentation.

Le même raisonnement fonctionne aussi avec 3 chaines à 66%. Pareil pour la climatisation, et pareil pour l'extinction incendie.
Outre l'économie considérable liée au rendement des équipements d'infrastructure primaire (50% vs 75%), le "cout" de ta redondance n'est pas x2, mais seulement 25%.

Attention : en tier4 ou en tier3 tu peux tout à fait couper une chaine totalement pour maintenance ou incident. le "+1" n'est pas imposé.
La perte d'une chaine, planifié ou non, est un élèment opérationnel considéré comme "normal" et qui doit être "sans impact"
Cf : http://uptimeinstitute.com/component/docman/doc_download/5-tiers-standard-topology (http://uptimeinstitute.com/component/docman/doc_download/5-tiers-standard-topology)
Si tu ne veux jamais couper, il faut que chaque branche soit "+1" c'est à dire que chaque équipement à son homologue en secours (onduleur, groupes électrogène). C'est notre cas.
Il y a d'autres vraies subtilisées au niveau des groupes électrogènes en tier3 et tier4
Malgré la redondance annoncée équivalente à 2N, voire 2N+1 chez Online, ils ont subi une grosse coupure électrique aujourd'hui sur leur DC2.
https://twitter.com/online_fr/status/352737589972832256

Bref, j'ai vraiment la désagréable impression que personne, aucun datacenter ne sait garantir l'absence de coupure...

Leon.

(https://lafibre.info/images/datacenter/201307_coupure_electricite_datacenter_online_dc2.png)
Titre: Coupure Online
Posté par: vivien le 04 juillet 2013 à 21:28:17
Impressionnant les dégâts de la panne.

C'est normal de devoir changer autant de switchs après une panne ?

Pour les serveurs, cela me semble normal d'avoir 1 serveur pour 1000 hs mais les switchs, non !

Exemple de panne serveur fourni par Online dans le tweet où il dit "ton serveur est up, il redémarre pas bien" :
(https://lafibre.info/images/datacenter/201307_coupure_electricite_datacenter_online_dc2_2.png)
Titre: Coupure Online
Posté par: minidou le 04 juillet 2013 à 21:36:29
panne mécanique sur 33% des GE? bravo

on a déjà vu sur ce forum que le fioul ne devait pas être stocké sur des durées excessives, concrètement, cela peut engranger des pannes mécaniques? (ou empêcher les GE de démarrer?)
Titre: Coupure Online
Posté par: vivien le 04 juillet 2013 à 21:46:58
Autre chose, si seule la voie A est coupée, cela ne devrait avoir aucun impact vu que les serveurs sont alimentés par deux voies (en cas de serveur avec une seul alim j'ai compris qu'il y a un système de prise multiples avec double alim qui assure la bascule).

J'ai l'impression que dés le deuxième message, on ne connais pas toute la situation. Le message "#dc2 visiblement incident majeur chez ERDF. Pas d'ETA. On est sur GE la température redescend dans les salles" cache beaucoup de choses, car une coupure ERDF qui dure ce n'est pas critique. Et pourquoi la température est montée dans les salles ?

Bref pour moi dés ce message on était déjà plus dans la penne ERDF mais il y avait d'autres incidents. Le message énigmatique suivant le confirme "#dc2 la situation est très compliquée plus d'infos a venir."
Titre: Coupure Online
Posté par: Snickerss le 04 juillet 2013 à 23:49:01
Les clims se sont arrêtées faute de puissance électrique c'est ce que j'ai compris. Ca me parait fou, c'est quand même "banal" une coupure ERDF comme type de problème. C'est comme un moteur qui s'arrête en avion, c'est le B-A-BA de l'urgence  :(
Titre: Coupure Online
Posté par: Synack le 05 juillet 2013 à 01:55:49
Je suis également surpris du nombre de switchs cramés, d'ailleurs de notre côté 1 switch également a cramé (un Cisco 2960G), ce qui est assez surprenant quand tout les serveurs sont repartis sans problème.

Ca "arrive" une panne, à partir du moment où il y a de l'humain et de la conception humaine dans la gestion de quelque chose, le risque 0 n'existe pas.

Par contre je trouve curieux d'arriver à faire tomber 2 chaines électriques de cette manière et je ne suis pas convaincu par la conception au niveau GE et par le rapport d'incident.

Titre: Coupure Online
Posté par: Leon le 05 juillet 2013 à 06:49:01
Les clims se sont arrêtées faute de puissance électrique c'est ce que j'ai compris.
C'est vrai que c'est étrange de dire ça comme ça, sans avouer qu'il y a eu un gros problème sur les groupes électrogènes.

Les clims sont secourues par les groupes électrogènes, et pas du tout par les onduleurs, sur une installation standard. Or, les groupes électrogènes fournissent toute leur puissance moins de 15 à 20sec après le début de la coupure, en temps normal. C'est beaucoup trop court pour avoir une grosse montée en température dans les salles.

Leon.
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: cali le 05 juillet 2013 à 09:12:45
Ils ont 6 GE, pour faire tourner le DC il en faut 5... je trouve étrange les switchs qui meurent... Parce que normalement tout doit être connecté aux UPS. Donc même si il y a un soucis électrique les UPS régulent puis maintiennent tout en fonctionnement le temps que les GE se lancent.
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: vivien le 05 juillet 2013 à 09:20:07
C'est quoi qui crame dans les switchs Cisco ?

L'alimentation ? Ce serait une sur-tension ?
Les alimentation à découpage des serveurs supportent assez bien une sur-tension, peut-être les switch non ?

Cela me fait penser à l'incident de Redbus en 2006 qui avait connecté en direct les groupes sur les serveurs (après avoir eu de nombreux problèmes) entraînant de nombreuses alim HS.

Citer
Cher client,

Redbus Interhouse, Data Center où sont situés nos équipements dont votre solution d'hébergement a connu aujourdh'ui une crise électrique majeure.

- 10h55 : Une coupure EDF touche tout l'ouest parisien dont le bâtiment
de Redbus Interhouse à Courbevoie. Tout le monde est dans le noir.
- 10h15 : L'équipe Ikoula d'astreinte sur site est renforcée. Effectif à
100% pour parrer à toute éventualité
- 11h54 : L'électricité revient. Tous les équiprements d'Ikoula, dont
votre service, remontent immédiatement. Tout est 100% fonctionnel.

Redbus n'a pas encore expliqué le temps anormal de coupure d'une heure.

- 14h32 : 2e coupure électrique générale
- 15h16 : L'électricité revient mais, la situation est instable

Conséquences des incidents :
- Le bâtiement fonctionne sur deux générateurs (le 3e est apparement cassé)
- Les onduleurs sont vides
- Le dijoncteur principal (EDF) est cassé, rendant la bascule sur le
courant EDF impossible
- Une bascule sur le courant EDF engendrera une nouvelle coupure
- La situation est extrêment instable

Ikoula a pris la décision de ne pas rallumer ses équipements. Les
machines supportent très mal les coupures électriques brutales. Le
risque de dommage est élevé. Un disque dur cassé peut signifier la perte
de données et des heures pour que vous puissiez le remettre opérationnel
à 100%.
Nous avons pris le parti de privilégier vos données et votre temps
plutôt que de remonter aussi vite que possible pour gagner quelques minutes.

Nous avons eu raison.

- 17h01 : 3e coupure générale
- 17h05 : L'électricité revient
- 18h00 : Redbus nous informe que l'intervention sur le dijoncteur
principal n'aura pas lieu ce soir. La situation est cependant plus stable
- 18h30 : Nous rallumons tous nos équipements dont votre solution
d'hébergement
L'équipe Ikoula est toujours au complet pour vosu aider à remonter vos
services à la normal si besoin.

ATTENTION :
L'intervention sur le dijoncteur aura lieu demain. Afin de préserver les
machines, vos données et votre travail, nous éteindrons tous nos
équipements avant celle-ci. Nous vous préviendrons avant bien entendu.
D'ici là, nous vous engageons à procéder à toutes les sauvegardes
nécessaires.

Nous vous présentons nos excuses pour la gêne occasionnée et vous
remercions pour votre confiance.
Nous vous tiendrons informé de l'évolution de la situation.

Cordialement,
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: Synack le 05 juillet 2013 à 10:48:47
On remplace le switch mort ce matin (vive la redondance), quand j'aurai le switch je regarderait, mais surement l'alim.

Il était sur PDU, mais rien n'exclut une surtension sur le feed à cause des générateurs. J'ai pas les graphs de tension/intensité pour ce site, ce serait intéressant si quelqu'un avait ça pour voir le comportement lors du début du problème.

Par contre ils annoncent 3°C de différence, de mon côté en température ambiante je suis passé de 23°C à 29-30°C sur mes graphs dans la salle 101.
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: Leon le 05 juillet 2013 à 11:48:55
Pour l'alim des switches: certains datacenters ont un réseau complètement séparé pour l'alimentation de tous les switches. Cette alimentation est alors secourue par batterie ou onduleur longue durée (plusieurs heures au lieu de quelques dizaines de minutes pour les serveurs). Ca permet de conserver un réseau parfaitement stable, même en cas d'incident électrique majeur. Mais ça reste rare.

La plupart des datacenters ont des switches (les switch des baies de serveur) directement connectés sur le même réseau électrique que les serveurs.

Leon.

Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: BadMax le 05 juillet 2013 à 16:14:30
Citer
Pour l'alim des switches: certains datacenters ont un réseau complètement séparé pour l'alimentation de tous les switches. Cette alimentation est alors secourue par batterie ou onduleur longue durée (plusieurs heures au lieu de quelques dizaines de minutes pour les serveurs). Ca permet de conserver un réseau parfaitement stable, même en cas d'incident électrique majeur. Mais ça reste rare.

C'est certainement pour garder une vue sur les équipements type PDU et onduleurs qui sont administrables par réseau Ethernet.

Sinon une alim de switch y'a rien de plus standard, j'ai déjà démonté des routeurs Cisco dont le connecteur d'alim interne était au standard ATX.  Après ça reste des alimentations à découpage et si on lui balance du courant hors norme, ça pête pareil. A voir si elles ne manquent pas de suffisamment de protections ?
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: Leon le 06 juillet 2013 à 08:55:06
Voici le compte-rendu d'incident d'Arnaud (directeur Online - Iliad Datacenter):
Ce ne sont pas seulement 2 groupes, mais bien 3 sur 6 qui sont tombés en panne!

Il faudra que je retrouve également, mais il me semble que c'est Arnaud qui disait que la redondance ERDF c'était de la foutaise, et qu'il ne fallait pas faire confiance aux offres "secourues" d'ERDF... alors qu'il s'étonne ici de la défaillance sur ses 3 lignes ERDF.

Coté datacenter :

Le datacenter DC2 est composé de 7 chaînes électriques indépendantes :
- A et B destinées aux salles en architecture N+1, dont la salle 103 (Dedibox)
- C, D, E destinées aux salles en architecture N+N et a la salle opérateur. Ces chaînes ne sont pas évoquées dans le présent rapport car n’ont subit aucune interruption ou dégradation de service. De même pour les chaînes F1 et F2 : destinées à la climatisation, en architecture N+N

10:21:14 le poste source EDF « Vitry-Nord » subit un dysfonctionnement grave impactant (explosion du transformateur) : Ivry sur Seine, Vitry sur Seine, Charenton, Maison Alfort. Nos 4 câbles haute tension alimentant le datacenter (2 câbles de travail, 2 de secours) sont simultanèment coupés.

10:21:33 les 7 chaînes électriques basculent sur groupe électrogène avec succès, sans coupure.

10:21:34 les onduleurs A4 et A5 de la chaîne A sont en défaut, sans coupure et sans conséquence compte tenu de la redondance N+2 de la chaine électrique.

10:22:45 Un premier groupe électrogène dédié à la climatisation (GE-F1) subit des pompages moteurs et s’arrête en défaut « hors tolérance fréquence». La chaîne électrique associée bascule automatiquement sur le groupe électrogène de secours (GE-S) à 10:23:08.
Le temps de la bascule, compte tenu des deux coupures très rapprochées, la température des salles augmente très légèrement 3°C sans conséquence.

10:26:30 Un deuxième groupe électrogène, celui de la chaîne A (GE-A), s’arrête en défaut « électronique ».
La chaîne électrique associée bascule automatiquement sur le groupe électrogène de secours (GE-S), sans coupure et sans conséquence.

11:15:00 Communication aux clients d’une difficulté majeure sur le datacenter. Escalade et envoie de renforts depuis DC3 et depuis le siège de Paris. Escalade au service dépannage du poste source d'ErDF

11:18:11 Le groupe électrogène de secours (GE-S) s’arrête en défaut mécanique majeur.
La chaîne A ne disposant plus de ni 1- l’arrivée principale EDF (composée de 4 câbles indépendants), ni son groupe électrogène GE-A, ni groupe électrogène de secours GE-S, les 6 sources électrique possibles étant indisponibles, les salles sont alimentées depuis les batteries des onduleurs.

11:29:18 Fin d’autonomie batterie des onduleurs de la chaîne A. Coupure de l’alimentation ondulée de la salle 103

11:41:23 Remise en service du groupe électrogène GE-A en « marche forcée » (arrêt de son automate, les défauts sont inhibés et ignorés) pour réalimenter la chaîne A. L’opération fonctionne, retour de l’énergie dans toutes les salles de 11:48 à 11:54 Arrivée des renforts et de la direction

11:54:20 Retour de l’électricité sur nos 4 câbles haute tension. Les chaînes rebascules sur EDF sans interruption de service à l’exception de la chaîne A, que nous laissons sur groupe électrogène afin de charger les batteries et basculer en toute sécurité

16:28:20 Fin de charge des batteries des onduleurs. La chaîne électrique A est basculée manuellement sur EDF avec succès.
De 11:45 à 19:30 Les onduleurs A4 et A5 sont réparés, les groupes électrogènes GE-F, GE-A, GE-S sont réparés. Plusieurs essais sont réalisés pour s’assurer du bon fonctionnement de l’infrastructure.

23:00 Départ des renforts, départ des entreprises de maintenance, communication du rapport préliminaire aux clients.
(rapport définitif d'ici 48 heures, le temps d'analyser toutes les données récupérées)

Coté Dedibox :
3000 serveurs et la console de gestion ont étés impactés par la coupure d'énergie (moins de 7% du parc).
Il s'agit principalement d'anciens serveurs Dell (gamme 2010) et d'offres de destockage. Pour la très grande majorité du parc de cette salle, cette interruption a été très courte et n'a pas eut d'impact important.

A 12:20, 85% du parc à été remis en service. 13 switchs défaillants ont étés remplacés

A 14:00, 250 serveurs indisponible nécessitant une intervention hardware.

A 14:30, il ne restait qu'une centaine de serveurs indisponibles. Un bug avec les ip failover et l'ipmi est corrigé

A 23:00, il ne reste qu'une dizaine de serveurs nécessitant une intervention plus poussée, notamment au niveau des cartes raid.

Conclusion
Cette interruption est liée à la défaillance sur une période de moins d’une heure de 3 groupes électrogènes sur les 6 du datacenter.
L'interruption, très partielle, à concernée 30% de notre datacenter et 7% du parc Dedibox pendant une durée 12 minutes.

Malgré toutes nos précautions dans le design de nos infrastructures, prévoyant systématiquement des onduleurs redondants (N+2), un groupe électrogène de secours installé sur site en permanent, le scénario peu probable de 1- une coupure simultanée de 4 arrivées EDF (sur 4) et  2- la défaillance de 3 groupes électrogènes (sur 6) c'est produit.

Nous le vivons comme un échec et souhaitons vous présenter nos excuses pour cet incident indépendant de notre volonté et qui ne remet pas en cause ni la fiabilité ni le design de nos infrastructures.

Nos datacenters sont régulièrement testés, au minimum 6 heures tous les 3 mois, en charge, avec une coupure réelle réalisée au niveau des arrivées EDF. Les derniers essais (par coupure des arrivées EDF pendant plus de 15 heures sur 3 jours) ont étés réalisés les 28/05 29/05 et 30/05, avec succès. En tout, près de 65 heures d'essais réels et en charge du datacenter ont étés réalisés depuis 4 ans.

La maintenance mécanique annuelle des groupes électrogènes a eut lieu du Lundi 1/07 au Mercredi 03/07 qui n'avait également révélé aucun problème. De même pour les onduleurs qui ont eut leur visite constructeur il y a quelques semaines.

Dure loi de Murphy ...

Leon.
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: minidou le 06 juillet 2013 à 20:50:51
donc on a:
(GE-F1) subit des pompages moteurs et s’arrête en défaut (oui, moi non plus je ne savais pas ce que c'était, j'ai trouvé une petite explication ici (http://forums.futura-sciences.com/technologies/42395-phenomene-de-pompage-moteurs-a-explosion.html))
(GE-A), s’arrête en défaut « électronique »
(GE-S) s’arrête en défaut mécanique majeur

il faut consulter un marabout!

Citer
Nos datacenters sont régulièrement testés, au minimum 6 heures tous les 3 mois, en charge, avec une coupure réelle réalisée au niveau des arrivées EDF. Les derniers essais (par coupure des arrivées EDF pendant plus de 15 heures sur 3 jours) ont étés réalisés les 28/05 29/05 et 30/05, avec succès. En tout, près de 65 heures d'essais réels et en charge du datacenter ont étés réalisés depuis 4 ans.
ils ont en effet l'air d'être sérieux (à part que mini 6heures tout les trois mois ça fait déjà 72heures en 3 ans, 96 en 4, pas 65)
pourquoi les tests de mai ont été fait sur 15 heures et trois jours? si l'on en croit les autres données, c'est très supérieure à la moyenne
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: corrector le 06 juillet 2013 à 21:36:48
Vont-ils revoir le calcul de probabilité de panne simultanée?
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: vivien le 06 juillet 2013 à 23:14:04
Autre info d'Arnaud :
Oui, j'ai twitté comme quoi nous avions un soucis majeur une dizaine de minutes avant l'interruption lorsque nous n'avions plus aucune source d'énergie disponible pour alimenter les onduleurs de la chaine A...

Un des soucis que nous avons eut, c'est la quasi absence de réseaux de téléphonie mobile dans la zone pendant la coupure (toutes les antennes relais ayant subit également la coupure), ce qui n'a pas facilité du tout la communication avec les équipes de renfort sur le chemin.

Bref, beaucoup de choses à apprendre et améliorer suite à cet incident. On aura l'occasion de revenir en détail sur le déroulement de cette heure et demi dans les jours qui viennent.

Arnaud

Voici la chronologie des tweet mélangés avec les événements tels que décrits par Arnaud :

10:21:14 le poste source EDF « Vitry-Nord » subit un dysfonctionnement grave impactant (explosion du transformateur) : Ivry sur Seine, Vitry sur Seine, Charenton, Maison Alfort. Nos 4 câbles haute tension alimentant le datacenter (2 câbles de travail, 2 de secours) sont simultanèment coupés.

10:21:33 les 7 chaines électriques basculent sur groupe électrogène avec succès, sans coupure.

10:21:34 les onduleurs A4 et A5 de la chaine A sont en défaut, sans coupure et sans conséquence compte tenu de la redondance N+2 de la chaine électrique.

10:22:45 Un premier groupe électrogène dédié à la climatisation (GE-F1) subit des pompages moteurs et s’arrête en défaut « hors tolérance fréquence». La chaine électrique associée bascule automatiquement sur le groupe électrogène de secours (GE-S) à 10:23:08.
Le temps de la bascule, compte tenu des deux coupures très rapprochées, la température des salles augmente très légèrement 3°C sans conséquence.

10:26:30 Un deuxième groupe électrogène, celui de la chaine A (GE-A), s’arrête en défaut « électronique ».
La chaine électrique associée bascule automatiquement sur le groupe électrogène de secours (GE-S), sans coupure et sans conséquence.

10h35 : #dc2 coupure EDF. On tourne sur groupe. Plus d'infos a venir
=> "On tourne sur groupe" => 2 groupes sur 6 sont déjà HS et 2 onduleurs de la branche A sont HS

11h06 : #dc2 visiblement incident majeur chez ERDF. Pas d'ETA. On est sur GE la température redescend dans les salles

11:15:00 Communication aux clients d’une difficulté majeure sur le datacenter. Escalade et envoie de renforts depuis DC3 et depuis le siège de Paris. Escalade au service dépannage du poste source d'ErDF

11h15 : #dc2 la situation est très compliquée plus d'infos a venir.

11:18:11 Le groupe électrogène de secours (GE-S) s’arrête en défaut mécanique majeur.
La chaine A ne disposant plus de ni 1- l’arrivée principale EDF (composée de 4 câbles indépendants), ni son groupe électrogène GE-A, ni groupe électrogène de secours GE-S, les 6 sources électrique possibles étant indisponibles, les salles sont alimentées depuis les batteries des onduleurs.

11h25 : #dc2 nous avons un soucis branche A

11:29:18 Fin d’autonomie batterie des onduleurs de la chaine A. Coupure de l’alimentation ondulée de la salle 103

11h40 : #dc2 la voie A a coupée ça reviens mise a jour dans 20' renforts arrivent

11:41:23 Remise en service du groupe électrogène GE-A en « marche forcée » (arrêt de son automate, les défauts sont inhibés et ignorés) pour réalimenter la chaine A. L’opération fonctionne, retour de l’énergie dans toutes les salles

de 11:48 à 11:54 Arrivée des renforts et de la direction

11:54:20 Retour de l’électricité sur nos 4 câbles haute tension. Les chaines rebascules sur EDF sans interruption de service à l’exception de la chaine A, que nous laissons sur groupe électrogène afin de charger les batteries et basculer en toute sécurité

12h36 : #dc2 pendant la coupure EDF deux GE sur les 6 ont eut une panne mécanique. La voie A a coupée, tout est repartis

13h40 : Depuis 40min nos équipes sont en train de changer les switchs HS, on vous tiens au jus

13h52 : Les switchs des baies en salle 103 reviennent une à une. Pour info la S301 n'est pas impactée

16:28:20 Fin de charge des batteries des onduleurs. La chaine électrique A est basculée manuellement sur EDF avec succès.

Par contre, tout ne me semble pas cohérent avec la réalité dans ce compte rendu...
Cela me fait penser a la communication assez farfelue de TH2 lors de la dernière coupure électrique Incident électrique sur TH2 du 11 avril 2012 (https://lafibre.info/datacenter/incident-electrique-sur-th2/) : La panne observé par les clients ne corespond pas a celle décrite et TH2 a annoncé avoir changé en quelques minutes un master pack, un équipement qui ne se change pas facilement.
Titre: Près de 14 000 foyers privés d’électricité autour de Vitry
Posté par: corrector le 07 juillet 2013 à 01:58:09
Près de 14 000 foyers privés d’électricité autour de Vitry

La coupure d’électricité a été courte mais intense : elle a privé quelque 13 900 foyers, dont l’hôpital Charles-Foix à Ivry (Val-de-Marne), d’alimentation entre 10 h 20 et 11 h 30. «Un incident s’est produit sur le poste-source de Vitry qui transforme du 225000 V en 20 000 V. Le poste s’est mis en sécurité et a donc interrompu l’alimentation immédiatement, atteste ERDF.


Au total, la coupure a impacté 13 900 foyers sur les communes de Vitry, Ivry, Maisons-Alfort et Charenton, dont l’hôpital Charles-Foix d’Ivry qui a été rétabli lui, dès 11 heures». Entre-temps, l’établissement a pris le relais avec ses groupes électrogènes. «Très vite, l’agence de conduite, installée à Melun (Seine-et-Marne) a procédé à toutes les manoeuvres nécessaires à distance pour réalimenter les clients grâce à d’autres postes-sources. Tous nos clients avaient à nouveau de l’électricité dès 11 h 30». Pendant ce temps, les équipes d’ERDF interviennent sur le site de Vitry pour identifier l’origine de la panne et la réparer.

http://www.leparisien.fr/val-de-marne-94/pres-de-14-000-foyers-prives-d-electricite-autour-de-vitry-04-07-2013-2954041.php (http://www.leparisien.fr/val-de-marne-94/pres-de-14-000-foyers-prives-d-electricite-autour-de-vitry-04-07-2013-2954041.php)
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: Leon le 07 juillet 2013 à 07:54:36
Vont-ils revoir le calcul de probabilité de panne simultanée?
Je pense qu'ils vont d'abord revoir le paramétrage des automates des groupes. Certains se sont visiblement mis en défaut alors qu'ils pouvaient encore tourner.

Citer
11:41:23 Remise en service du groupe électrogène GE-A en « marche forcée » (arrêt de son automate, les défauts sont inhibés et ignorés) pour réalimenter la chaine A. L’opération fonctionne, retour de l’énergie dans toutes les salles

C'est quand même fou de voir le manque de fiabilité d'équipements aussi chers et aussi critiques. Dans l'incident, on voit : 2 onduleurs HS, 3 groupes HS, et 13 switches Ethernet HS... Ca m'impressionne! Ce sont des équipements achetés avant tout pour leur fiabilité...

Par contre, il faudrait que Arnaud surveille sa communication. Il raconte quand même des bêtises. On va dire qu'il était sans doute un peu trop fâtigué après le stress de l'incident...
Citer
Cet incident [...] ne remet pas en cause ni la fiabilité ni le design de nos infrastructures.

Leon.
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: corrector le 07 juillet 2013 à 09:17:00
Par contre, il faudrait que Arnaud surveille sa communication. Il raconte quand même des bêtises. On va dire qu'il était sans doute un peu trop fâtigué après le stress de l'incident...
Citer
ne remet pas en cause ni la fiabilité
On va dire qu'il voulait dire que c'est un événement très très improbable qui a eu lieu, et que donc l'estimation du risque reste très faible.
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: minidou le 07 juillet 2013 à 09:35:44
et surtout qu'il veut rassurer ses clients
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: Leon le 07 juillet 2013 à 09:44:09
On va dire qu'il voulait dire que c'est un événement très très improbable qui a eu lieu, et que donc l'estimation du risque reste très faible.
Là où je travaille (ingénierie électronique automobile), on fait beaucoup d'études de fiabilité, de sureté de fonctionnement. Donc on travaille beaucoup avec des événements redoutés très très peu probables qu'on essaye de gérer. Et il y a une règle absolue : si dans la conception, on estime qu'un événement est extrèmement improbable, et que l'événement redouté grave a été rendu fortement improbable (<10e-9 défaillance /heure), grâce à des redondances, des mécanismes de sécurité... et bien si cet événement redouté se produit quand même, ne serait-ce qu'une seule fois, c'est qu'il y a une couille dans la conception, c'est aussi simple que ça! Du coup, il faut revoir sa copie. La cause? Soit que les redondance n'en n'étaient pas vraiment (défaillances unitaires non indépendantes entre elles), soit que l'estimation de la défaillance unitaire était beaucoup trop optimiste (fiabilité des groupes ici), soit que les barrières de protections ne couvraient pas tous les cas de défaillance possible.

Bref, je pense que c'est exactement ce que vont faire les équipes d'Online/Iliad Datacenter : plancher en interne et avec leurs équipementiers pour comprendre pourquoi la défaillance a pu se produire alors qu'elle était très très improbable.

En ingénierie, on ne peut pas se contenter de "c'est la faute à pas de chance" ou du "tant pis, il faut espérer que ça ne se reproduise pas".

et surtout qu'il veut rassurer ses clients
Oui, je pense que c'est surtout ça. Mais la formulation est extrèmement maladroite, car justement, l'événement vient de prouver que la fiabilité de ses installations n'était pas si bonne que ça.

Leon.
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: BadMax le 07 juillet 2013 à 09:55:26
Sauf que dans ton milieu, tu as la maitrise de la conception des équipements et/ou tu as un large choix de composants. Idem en aéronautique où on est encore plus sensible à l'évaluation des risques.

En alimentation de type HT pour utilisation Datacenter, on n'a pas beaucoup de choix technologiques : les automates, y'en n'a pas 10000 sur le marché et tous peuvent tomber en panne. Y'a pas grand-chose à redire de l'architecture de Online DC2, les pannes en cascade ça arrivera toujours.

La seule piste d'amélioration que je vois est de tester plus régulièrement les groupes, test mensuel ou bi-hebdo à la place d'un test trimestriel.

Tiens, on pourrait aussi parler de la dépendance des moyens de communication vis-à-vis des réseaux de téléphonie externe. Ca, pour le coup, c'est très rare d'avoir prévu un plan de secours.



Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: vivien le 07 juillet 2013 à 10:43:16
Ne prenez pas tout ce qui est dit pour la réalité, je persuadé que cela ne s'est pas déroulé comme indiqué. Le but est effectivement de rassurer un maximum les clients en mettant en place une histoire qui semble tenir debout.

10h21:14 Coupure ERDF.
10:21:33 Démarrage réussi du groupe électrogène dédié à la climatisation (GE-F1)
10:22:45 Le groupe électrogène dédié à la climatisation (GE-F1) subit des pompages moteurs et s’arrête en défaut « hors tolérance fréquence».
10:23:08 : La chaîne électrique de la climatisation bascule automatiquement sur le groupe électrogène de secours (GE-S)
11:54:20 : Retour de l’électricité sur nos 4 câbles haute tension. La chaîne électrique dédié à la climatisation sur EDF.

Entre la coupure ERDF et l’alimentation stable sur le second groupe (GE-S), il se passe moins de 2 minutes.

Officiellement, "Le temps de la bascule, compte tenu des deux coupures très rapprochées, la température des salles augmente très légèrement 3°C sans conséquence."

Une augmentation de 3°c en moins de deux minutes, c'est énorme. Maintenant la réalité, ce n'est pas 3°c mais 7°C : Synack (https://lafibre.info/profile/Synack/) a une sonde de température dans la salle en question, je vous laisse regarder le graphe que j'ai agrandis pour mieux voir.

Il y a un trait vertical toutes les heures :
(https://lafibre.info/images/datacenter/201307_coupure_electricite_datacenter_online_dc2_3.png)
On a bien une augmentation de la température à partir de 10h25 mais elle a continué pendant une demi-heure !

Visiblement il n'y a pas eu de climatisation de 10h22 à 10h50.

Le graphe montre également une nouvelle coupure de la climatisation vers 11h15.

On n'en sais pas plus car à 11h29 le courant est coupé :
11:29:18 Fin d’autonomie batterie des onduleurs de la chaine A. Coupure de l’alimentation ondulée de la salle 103

Au passage, ERDF explique que "Tous nos clients avaient à nouveau de l’électricité dès 11 h 30"

Bref, les explications de Online semblent bien éloignées de la réalité.
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: Nico le 07 juillet 2013 à 11:08:15
Tiens, on pourrait aussi parler de la dépendance des moyens de communication vis-à-vis des réseaux de téléphonie externe. Ca, pour le coup, c'est très rare d'avoir prévu un plan de secours.
Certains en ont fait les frais lors de grosses pannes (coucou les HLR) et ont revu leur copie chez les opérateurs !
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: corrector le 07 juillet 2013 à 11:23:13
Là où je travaille (ingénierie électronique automobile), on fait beaucoup d'études de fiabilité, de sureté de fonctionnement. Donc on travaille beaucoup avec des événements redoutés très très peu probables qu'on essaye de gérer. Et il y a une règle absolue : si dans la conception, on estime qu'un événement est extrèmement improbable, et que l'événement redouté grave a été rendu fortement improbable (<10e-9 défaillance /heure), grâce à des redondances, des mécanismes de sécurité... et bien si cet événement redouté se produit quand même, ne serait-ce qu'une seule fois, c'est qu'il y a une couille dans la conception, c'est aussi simple que ça! Du coup, il faut revoir sa copie. La cause? Soit que les redondance n'en n'étaient pas vraiment (défaillances unitaires non indépendantes entre elles), soit que l'estimation de la défaillance unitaire était beaucoup trop optimiste (fiabilité des groupes ici), soit que les barrières de protections ne couvraient pas tous les cas de défaillance possible.

Bref, je pense que c'est exactement ce que vont faire les équipes d'Online/Iliad Datacenter : plancher en interne et avec leurs équipementiers pour comprendre pourquoi la défaillance a pu se produire alors qu'elle était très très improbable.

En ingénierie, on ne peut pas se contenter de "c'est la faute à pas de chance" ou du "tant pis, il faut espérer que ça ne se reproduise pas".
Oui, bien sûr, il est ultra rare que les événements ultra rares se produisent.

Donc il vaut mieux parier que quand un événement se produit, c'est qu'il n'est pas ultra rare en réalité.

Ne prenez pas tout ce qui est dit pour la réalité, je persuadé que cela ne s'est pas déroulé comme indiqué. Le but est effectivement de rassurer un maximum les clients en mettant en place une histoire qui semble tenir debout.
Quel intérêt de diffuser du bullshit pareil, alors qu'ils savent que les clients sont des pros et qu'ils vont savoir si les infos sont incohérentes?
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: vivien le 07 juillet 2013 à 11:25:57
C'est fréquent que les personnes d'astreintes ont deux téléphones chez deux opérateurs différents.
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: corrector le 07 juillet 2013 à 11:28:36
Oui, mais si le site des èmetteurs mobiles n'est plus alimentée...

Est-ce qu'ils ont des téléphones satellite?
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: Leon le 07 juillet 2013 à 12:34:43
Effectivement, s'ils font confiance au tel portable...

Dans les sites très sensibles, il y a des moyens de communication complètement dédiés normalement. Des téléphones filaires partout, sur un réseau téléphonique dédié, le plus simple possible (analogique). Ne surtout pas faire confiance au GSM ou à la VoIP pour des trucs sensibles.
Dans les "salles de contrôle" des installations sensibles (nucléaire, usines, pétrochimie, finance, etc), il n'est pas rare qu'une seule personne ait 2 ou 3 téléphones différents, sur des réseaux différents. C'est pareil sur les lieux sensibles de ces installations : des téléphones filaires, analogiques, robustes, répartis un peu partout où une intervention humaine sensible peut avoir lieux.

On peut installer jusqu'à 3 ou 4 téléphone pour chaque poste:
* 1 ligne interne normale (passant par le commutateur du site)
* 1 ligne France Telecom dédiée (analogique), ne passant pas par le commutateur du site, au cas où le commutateur déconne
* 1 ligne interne de secours, sur un réseau de secours dédié, genre "ligne rouge", avec sa propre numérotation téléphonique, au cas où les 2 ci dessus sont injoignables. Si ce réseau interne relie plusieurs sites, alors il emprunte de préférence des "liaisons louées" complètement séparées du reste. J'ai même vu (dans l'industrie) un tel réseau "très haute disponibilité", transportant de la voix et des données bas débits (transactions financières, ordres de production, commandes), réseau réalisé avec des liaisons louées redondées entre les sites, et des liaisons de secours par satellite (VSAT).
* On peut aussi mettre des téléphones "lignes rouge" qui passent par des lignes satellite dédiées genre Iridium, Inmarsat, ou Thuraya
Je précise que tout ça n'est pas de la fiction, c'est du réel!

Bref, la fiabilité, ça se joue à tous les niveaux. Les opérateurs de Datacenter devraient prendre exemple sur ce qui se fait dans l'industrie sensible. Tous ces problèmes ont été bien étudiés dans l'industrie.

Dans l'incident du DC2 d'ILIAD, ils auraient peut-être pu appliquer la sollution palliative, à savoir redémarrer le groupe électrogène, si la consigne des "experts" (non présents sur place) était parvenue à temps Ce n'est qu'une hypothèse, mais elle me semble plausible.
Citer
10:26:30 Un deuxième groupe électrogène, celui de la chaine A (GE-A), s’arrête en défaut « électronique ».
[...]
11:29:18 Fin d’autonomie batterie des onduleurs de la chaine A. Coupure de l’alimentation ondulée de la salle 103

11:41:23 Remise en service du groupe électrogène GE-A en « marche forcée » (arrêt de son automate, les défauts sont inhibés et ignorés) pour réalimenter la chaine A. L’opération fonctionne, retour de l’énergie dans toutes les salles

Sauf que dans ton milieu, tu as la maitrise de la conception des équipements et/ou tu as un large choix de composants. Idem en aéronautique où on est encore plus sensible à l'évaluation des risques.

En alimentation de type HT pour utilisation Datacenter, on n'a pas beaucoup de choix technologiques : les automates, y'en n'a pas 10000 sur le marché et tous peuvent tomber en panne. Y'a pas grand-chose à redire de l'architecture de Online DC2, les pannes en cascade ça arrivera toujours.
Tu te trompes sur mon métier. Je travaille pour un grand constructeur automobile français, dans le domaine de l'électronique. Et dans de très nombreux cas, pour certains calculateurs spécialisés, nous n'avons le choix qu'entre 2 ou 3 fournisseurs, qui proposent leur solution sur étagère, qu'ils adaptent à nos besoins... Bref, exactement comme un constructeur d'installation industrielle (datacenter y compris).

Je ne suis surtout pas d'accord avec ta dernière phrase : "les pannes en cascade ça arrivera toujours". Clairement, non. Comme nous le disons avec Corrector : si un événement très très improbable arrive, c'est qu'on n'a pas pris toutes les mesures pour qu'il soit si improbable que ça. Si on voit un jour un événement censé arriver à une probabilité de 10e-9/heure, c'est que la probabilité a été très largement sous-estimée. La probabilité théorique de défaillance de 3 groupes sur 6 doit être de cet ordre de grandeur là!

Je sais, ça semble un peu facile pour un oeuil extérieur, ça ressemble à du "yaka fautqu'on", mais j'assume!

Leon.
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: BadMax le 07 juillet 2013 à 13:34:18

Je ne suis surtout pas d'accord avec ta dernière phrase : "les pannes en cascade ça arrivera toujours". Clairement, non. Comme nous le disons avec Corrector : si un événement très très improbable arrive, c'est qu'on n'a pas pris toutes les mesures pour qu'il soit si improbable que ça. Si on voit un jour un événement censé arriver à une probabilité de 10e-9/heure, c'est que la probabilité a été très largement sous-estimée. La probabilité théorique de défaillance de 3 groupes sur 6 doit être de cet ordre de grandeur là!

Je sais, ça semble un peu facile pour un oeuil extérieur, ça ressemble à du "yaka fautqu'on", mais j'assume!

Leon.

J'ai un oeil "aéronautique" : quand il y a un crash, c'est à cause de pannes en cascade ou pannes multiples. Normalement, chaque élèment pris séparèment est redondant et/ou une procédure de secours existe pour pallier la défaillance totale de cet élèment (exemple: les visus(*1) cockpit foutent le camp sur Airbus -> procédure de ré-démarrage des visus prévue, sondes Pitot(*2) gelées -> on dégèle, etc). Et pourtant il y a des crashs, cf AF447 où les erreurs et pannes se cumulent pour aboutir à un crash. Suffit d'enlever une seule des pannes/erreurs de la liste pour éviter le crash.

Pour revenir au sujet, en aéronautique la génération électrique est secourue par l’existence d'un mode dégradé avec l'alimentation des circuits de commande de vol par une éolienne externe : alim principale par moteurs puis APU (générateur dans la queue de l'avion) et enfin éolienne de secours. Sur Boeing 787 elle a été utilisée lors d'un vol d'essai avec la FAA(*3) : les panneaux de distribution électrique étant en feu, il a fallu basculer sur le secours ultime pour alimenter les commandes de vol (je vous raconte pas la tronche du mec de la FAA à bord de l'avion, il a d'emblée mis la pression à Boeing pour la certification inter-continentale ETOPS).

En terme d'architecture électrique pour un DC, je vois mal déployer des éoliennes en urgence surtout s'il n'y a pas de vent (tiens j'entends corrector sourire) pour alimenter à puissance égale le DC...

EDIT:
(*1) visus = abréviation des équipements d'affichage du cockpit, il y en a 1 par pilote + un écran de secours configurable pour afficher toutes les informations
(*2) Sonde Pitot = sert à mesurer la vitesse de l'air à l'aide d'un fil chauffé. La sonde étant constituée d'un tube, de l'eau peut s'y infiltrer et geler en vol ce qui fait perdre l'information de vitesse de l'air. Dans ce cas, une procédure (connue voir automatique) de dégivrage est déclenchée. Cela ne prend que quelques minutes. Cette information (la vitesse de l'air) est vitale car elle permet de faire en sorte que l'avion reste dans son domaine de vol, c'est-à-dire, ni trop vite, ni trop lentement. L'information de vitesse sol ne peut pas s'y substituer.
(*3) FAA = Federal Aviation Administration, autorité de certification américaine qui délivre les autorisations de vol pour l'aviation civile. Dans le cas du Boeing 787, elle a été critiquée par son laxisme en déléguant certaines taches de certifications jugées non-critiques à des personnels de Boeing (cf histoire des batteries Lithium-ion qui prennent feu)
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: corrector le 07 juillet 2013 à 15:37:04
On reparle de Habsheim?  >:( :-[  :-X  :-\  :'(
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: ldrevon le 09 juillet 2013 à 16:43:48
Bonjour,
1) bon Online, ce n'est pas cher donc du coup il ne faut pas pleurer si cela tombe en panne!
On ne peut pas dire beaucoup de mal du malheur des autres mais quand il y a une panne de ce style, cela veut dire que le DC n'est pas bien alimenté et que leurs responsables comptent un peu trop sur la qualité du courant d'E(R)DF... (J'en connais à Lyon qui sont dans le  même cas..)

2)Pour info, nous à Maxnod  (même si on est bcp plus petit que Online..) on coupe le courant tous les début de mois. Il s'agit là de procédure normale que l'on réalise.
Le premier GE doit démarrer en 5 secondes et prendre la totalité de la puissance 15s après
On le laisse tourner 10mn et ensuite bouton d'arrêt d'urgence!
Le deuxième GE démarre dans les 5 secondes qui suivent et prendre la totalité de la puissance 15s après.
On fait cela dans la journée, car si on casse un élèment, il peut être plus rapidement changé (ex au début on a cassé un disjoncteur de 400A bilan 6 heures sur le GE) Effectivement le GE représente un coût de fonctionnement important (300Kw = 1.5K€/24h....)
Cf point  n°1 pbm du pas cher...

3) Si les switchs sont HS c'est soit ils étaient trop vieux (cf point n°1) soit ils n'étaient pas branchés derrière les onduleurs.... pbm du point 4

4) Maintenance? cf point 1....



Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: butler_fr le 09 juillet 2013 à 17:22:09
au final en cas de défaillance multiple des groupes (3 d'après ce qui a été dit), la situation aurait été la même!  ::)

par contre la procédure de test me semble pertinente.
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: vivien le 09 juillet 2013 à 17:54:51
Moi je ne suis pas persuadé que tout s'est déroulé comme indiqué (je suis même sur du contraire).

Les contradictions entre le discours d'Online d'une part et d'autre part avec EDF et la courbe de la température dans la salle qui montre bien que la clim a été coupée plus de 2 minutes jette un gros doute sur le reste de ce qui est affirmé. Idem sur le fait que la coupure de la chaîne électrique A est arrivée alors que EDF affirmait avoir rétabli la totalité de ses clients.

Cela répond à la question que certains se posent : pourquoi ne pas avoir affecté le groupe qui alimente la clim à la chaîne électrique A ?
Une autre hypothèse c'est que 4 groupes ou plus (sur les 6) étaient HS. Dans ce cas là il est intéressant de savoir pourquoi... Une même cause commune du type la cuve de gazole était vide et donc il fallait se contenter des nourrices intégrées aux groupes ?

Les groupes de DC3 ont une nourrice de 1000 litres de gazole qui se remplit quand elle arrive à 300 litres. Il est probable que le principe soit le même sur DC2. Sur DC3 il y a un double circuit reliés à deux cuves pour alimenter les groupes mais peut-être pas sur DC2  ?
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: Snickerss le 09 juillet 2013 à 17:56:14
au final en cas de défaillance multiple des groupes (3 d'après ce qui a été dit), la situation aurait été la même!  ::)

par contre la procédure de test me semble pertinente.


Justement, cette défaillance aurait elle eu lieu avec ce genre de test plutôt qu'avec ceux pratiqués par Online ?
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: butler_fr le 09 juillet 2013 à 18:14:15
en théorie normalement non!

après tu es jamais à l'abri d'une panne multiple, par exemple 2 pièces qui cassent coup sur coup, après la probabilité que ça arrive est faible mais cela peut arriver!

@vivien
est ce qu'on peu être sur des dires d'edf?
sinon ça voudrait dire qu'un autre équipement n'a pas fonctionné correctement en plus des GE.
la panne d'un GE supplèmentaire n'explique pas pourquoi le courant n'est pas revenus normalement sur l'arrivée EDF.
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: Leon le 09 juillet 2013 à 20:24:45
après tu es jamais à l'abri d'une panne multiple, par exemple 2 pièces qui cassent coup sur coup, après la probabilité que ça arrive est faible mais cela peut arriver!
Non, encore une fois, je ne suis pas d'accord avec ça. Murphy, la loi de "pas de chance" "la panne multiple, ça peut arriver", ou "ça ne se reproduira pas", non, ça n'est pas professionnel. Ce genre d'affirmation doit tout simplement être interdit, dans un monde vraiment professionnel! Sur le papier, il n'est pas rare qu'on nous nous garantisse des taux de défaillances à 10e-8/h ou 10e-9/h, sur ce type d'installation sensible redondante, soit une défaillance de ce type tous les 10 000 ans!!!

Une défaillance multiple annoncée à un tel taux aussi faible ne peut réellement pas arriver si le taux est bien estimé! Jamais, pas du tout. Zéro, nada. Sauf s'il y a un problème de conception quelque part, et que le taux a été mal estimé.

Ici, si chaque groupe a une probabilité de défaillance très faible, et/ou un "mean time between failure" très grand, et que 3 groupes sur 6 défaillent en même temps, alors c'est qu'il y a un gros problème de conception quelque part. Soit au niveau des groupes, soit au niveau de l'architecture globale du système.

Mais la défaillance constatée est aussi peut-être un manque de validation du système global : a-t-il été testé dans toutes les configurations de défaillance possible? La reprise par le groupe de secours de la clim + d'une chaine électrique de serveurs était-elle testée régulièrement?

bon Online, ce n'est pas cher donc du coup il ne faut pas pleurer si cela tombe en panne!
On ne peut pas dire beaucoup de mal du malheur des autres mais quand il y a une panne de ce style, cela veut dire que le DC n'est pas bien alimenté et que leurs responsables comptent un peu trop sur la qualité du courant d'E(R)DF... (J'en connais à Lyon qui sont dans le  même cas..)
Lionel, attention à ne pas trop se moquer des autres. Ca n'est pas toi qui avait subi il y a quelques temps une double coupure d'onduleur (pourtant redondants) lors d'une maintenance?

Pour finir, j'ai vu aussi un datacenter, pourtant de taille honête, qui a commencé avec 1 seul et unique groupe électrogène, et qui se ventait pourtant d'être tier-4:
http://www.datacenter-marilyn.com/ (http://www.datacenter-marilyn.com/)

Leon.
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: vivien le 09 juillet 2013 à 20:37:09
Le datacenter multi-opérateurs sur Amiens n'avait lui aussi qu'un seul groupe qui n'a pas démarré le 13 mars entraînant la coupure de plusieurs FAI (Free, CityPlay, ...)

=> Soucis avec EDF ? Pas que dans l'Ain :) (https://lafibre.info/cityplay/soucis-avec-edf-pas-que-dans-lain/)

Photo de la partie occupée par CityPlay :
(https://lafibre.info/images/cityplay/201306_cityplay_amiens_30.jpg)
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: BadMax le 09 juillet 2013 à 20:43:04
Résumons:

Reste plus qu'à éviter que l'arrêt d'urgence en salle ne se déclenche   ;D
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: Leon le 09 juillet 2013 à 21:01:33
Pour fournir le service, il faut 3GE: principal, secours et spare
2 groupes peuvent suffire. Ou alors 3 en configuration N+1 (chaque groupe peut alimenter 50% de la charge). Mais il n'y a vraiment pas besoin de 3N comme tu le proposes! C'est beaucoup trop pour la plupart des besoins. Et surtout très cher!
Je pense sérieusement qu'on peut atteindre un très bon taux de fiabilité avec une configuration N+1, avec de bons groupes, utilisés dans de bonnes conditions (rampes de montée en charge côté onduleurs), etc...

Leon.
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: BadMax le 09 juillet 2013 à 21:06:52
Tu as raison 3GE en N+1 suffit. Mais je pense que 2 c'est statistiquement joueur.
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: vivien le 09 juillet 2013 à 21:16:43
DC2 est censé être en N+2, si j'ai bien compris...

Censé, car j'ai quelques doutes...

En N+2, Là où la température monte cela signifie qu'ils ont au moins 3 groupes HS...
(https://lafibre.info/images/datacenter/201307_coupure_electricite_datacenter_online_dc2_3.png)
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: BadMax le 09 juillet 2013 à 21:30:12
Truc que j'ai pas compris : ils sont pas en hexaload aussi sur les GE ?

Du coup c'est du 1+1 par chaine d'alimentation.
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: butler_fr le 09 juillet 2013 à 22:06:35
@leon

d'accord sur le fait que ce ne dois pas arriver mais statistiquement la possibilité existe, c'est un risque infime mais il existe, je le faisais juste remarquer à Lionel.
reste que effectivement de bons tests réguliers, doivent normalement éliminer ces problèmes!

mixer les marques, séries de fabrication peut être une bonne idée pour éviter, les pannes style rupture d'une même pièce mécanique, par usure, sur un temps très court (défaut de conception).

enfin quelqu'un aurait un début d'explication sur l'écart de temps constaté entre l'annonce d'edf pour le rétablissement du courant, et le rétablissement effectif à DC2??
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: ldrevon le 09 juillet 2013 à 22:20:34
Alors effectivement il faut remettre à leur place les problèmes rencontrés et dans la techno je commence à connaitre (à mon dépend..) donc effectivement il faut avoir 2 chaines différentes et la succession de panne est normalement indépendante ... sauf pour le cas des onduleurs ou on est obligé d'avoir la même marque pour avoir une synchronisation de phase  entre les 2 distributions.
Et c'est à ce niveau là que la maintenance intervient...

Maintenant au niveau des GE il faudrait quand même noter qu'aucun constructeur ne veut garantir la synchronisation avec un GE d'une autre marque... (comme les onduleurs...)

Alors ce qu'il serait bien c'est que cela soit constructif et que l'on établisse une vraie norme (par le Tiers X qui n'est que là pour pomper des €...)

Donc soyons forts et constructifs et allons de l'avant pour mettre en place une norme RÉELLE et vérifiée et en toute indépendance que l'on donne une NOTE sur la qualité de l'installation (cela ne sert à rien de fournir du 200Mbits/s dans du Tiers 1 s'il y a une panne de 4 h/an, sinon cela coute <50€ /mois  et c'est du GP)

Qui est partant?



Ps: en fait les mainteneurs ne pensent jamais mal faire.. Sauf que par manque de recul ou d'une perception limitée est trop souvent synonyme de défaillance qui aurait pu être prévisible...




Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: ldrevon le 09 juillet 2013 à 22:31:04
Et puis maintenant qu'on en parle tout à l'heure j'ai perdu mon disjoncteur de tête pendant 3h (juste après les tests de GE)
Cause: soleil sur le disjoncteur (de marque S...) suite au test ( car du coup la porte reste ouverte le temps du test et le soleil presque couchant rayonne sur le disjoncteur)
Petite notice de service du constructeur..... sur comment faire pour le remettre en service au cas ou ! Appuyer sur le bouton RESET (celui du test mensuel de fuite..) et en même temps remonter le disjoncteur!

Donc ce sera (au final) une modification des procédures de test... En attendant une modification des installations  (Groom sur la porte du disjoncteur?)
Maintenant dans notre configuration, il n'y a eu aucun impact coté production.
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: BadMax le 09 juillet 2013 à 22:42:12
Avec le recul, je comprends mieux le choix de Google pour ses serveurs d'y embarquer une batterie : pas de problématique de chaine ondulée, y'en n'a pas !
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: ldrevon le 09 juillet 2013 à 22:42:53
Et puis tant qu'on y est, est ce que l'on pourrait interdire le FM200 qui est éjecté à 50 bars (au minima)???
Avoir une extinction d'incendie qui met HS les disques durs serveur, pour ma part cela revient à dire qu'on est entouré de "professionnels" incompétents (techniquement) mais très fort commercialement..
Après il y a le brouillard d'eau super efficace!! Est-ce que dans ce cas de figure, votre serveur est encore sous garantie? Réponse: Non
Est-ce que vous êtes encore dans le domaine de fonctionnement de votre serveur? la réponse est encore non...


 
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: ldrevon le 09 juillet 2013 à 22:47:35
Avec le recul, je comprends mieux le choix de Google pour ses serveurs d'y embarquer une batterie : pas de problématique de chaine ondulée, y'en n'a pas !

Batterie = fuite car forcement pour que cela rentre dans un onduleur ou un serveur (il y a des "demeurés"->ceux qui conçoivent  qui croient aux "commerciaux" -->ceux qui vendent) et qui installent des batteries couchées...

Bon là vous allez encore me dire que c'est une marque chinoise.. Oui mais pas que.....elle commence par un U. et l'autre par un M.

Et demain si j'y pense je vous montrerai une belle photo d'un bureau rongé par l'acide d'un gentil onduleur chinois...
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: Leon le 09 juillet 2013 à 22:57:41
Merci Lionel, ton avis de professionnel passionné est intéressant.
Alors effectivement il faut remettre à leur place les problèmes rencontrés et dans la techno je commence à connaitre (à mon dépend..) donc effectivement il faut avoir 2 chaines différentes et la succession de panne est normalement indépendante ... sauf pour le cas des onduleurs ou on est obligé d'avoir la même marque pour avoir une synchronisation de phase  entre les 2 distributions.
Et c'est à ce niveau là que la maintenance intervient...
Par rapport à ça, j'ai une question.
Je n'ai pas compris pourquoi tu devais avoir 2 onduleurs synchronisés. Je croyais que tu avais 2 onduleurs sur 2 réseaux de distribution complètement différents, donc avec 2 alimentations différentes par baie. Ce qui permet aux serveurs à alimentation redondée de ne pas subire de coupure... Dans cette configuration, les onduleurs peuvent être complètement indépendants, et n'ont pas besoin d'être synchronisés à ma connaissance. Même en cas d'utilisation d'un transfer-switch par baie (au lieu d'alims redondantes) en amont d'un bandeau de distribution, les sources (onduleurs) n'ont pas besoin d'être synchronisées.

Est-ce que je me trompe? Est-ce que tu n'as qu'1 seul réseau de distribution vers les baies mais des onduleurs redondants, ce qui expliquerai la nécessité de synchronisation? Je ne pense pas, mais bon...

Citer
Maintenant au niveau des GE il faudrait quand même noter qu'aucun constructeur ne veut garantir la synchronisation avec un GE d'une autre marque... (comme les onduleurs...)
Et sur ton datacenter, est-ce que tu synchronise tes 2 groupes, ou alors est-ce que l'un reste systématiquement en secours de l'autre? Donc pas besoin de synchroniser?

Batterie = fuite car forcement pour que cela rentre dans un onduleur ou un serveur (il y a des "demeurés"->ceux qui conçoivent  qui croient aux "commerciaux" -->ceux qui vendent) et qui installent des batteries couchées...
Dans tous les onduleurs à batterie couchée que j'ai vu, dans tous les onduleurs rackables, et dans les serveurs de Google, et même dans les installations de secours critique (genre alarme, équipements incendie, téléphone de secours) j'ai toujours vu des batteries "à électrolyte gélifié", donc totalement étanche. Je ne pense pas que ce genre de batterie puisse fuire... Dis-moi si je me trompe. OK, dans les gros onduleur (centaines de KVA), on mets systématiquement des batteries à électrolyte liquide, car c'est moins cher. Et là, il y a risque de fuite, mais c'est moins grave.

Merci d'avance pour tes réponses!

Leon.
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: BadMax le 09 juillet 2013 à 22:59:28
Euh.... j'ai pleins de batteries gélifiées sous la main, je n'en ai encore jamais vu une avoir une fuite...

Dans un onduleur Merlin-Gerin, elles sont parfois disposées à la verticale.
Dans les onduleurs EMC2 intégrées aux baies, les batteries sont couchées.
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: ldrevon le 09 juillet 2013 à 23:06:03
Promis je t''enverrai des photos... avec la fuite au niveau du connecteur et qui du coup oxyde la connexion de marque M et l'autre de marque U (sur mon bureau)
Bon dans le premier de marque M, il y avait au moins 8 batteries (mais une seule fuite suffit vu qu'elles sont en montées en série..)
Sur les gros onduleurs de la salle par contre il s'agit de batterie gros modèle (pas les 7ha) dont 3 circuits sont branchés en parallèle..
On n'est jamais trop prudent :)

Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: ldrevon le 09 juillet 2013 à 23:14:32
... en amont d'un bandeau de distribution, les sources (onduleurs) n'ont pas besoin d'être synchronisées.
Leon.

Ce n'est pas les sources des onduleurs qui ont besoin d'être synchronisé, mais la distribution dans les baies!

Ex n°1 : un serveur n'est pas garanti si une phase n'est pas identique entre les 2 alimentations.
Ex n°2 : les switch de bascule automatique entre 2 sources, pour alimenter ces dispositifs doivent être sur la même phase sinon pas de bascule possible dans le temps impartit pour que cette bascule soit invisible.

Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: ldrevon le 09 juillet 2013 à 23:22:13
Et sur ton datacenter, est-ce que tu synchronise tes 2 groupes, ou alors est-ce que l'un reste systématiquement en secours de l'autre? Donc pas besoin de synchroniser?

Oui les GE sont en secours l'un de l'autre et chacun peut prendre la puissance totale du DC avec une marge de manœuvre importante.
En gros l'hiver nous sommes à PUE 1.1 et l'été à <1.3 (mais avec des pointes à 2...)
Je dis bien PUE car on prend ce que l'on facture  en KW à nos clients par rapport au compteur source..
On comprend par conséquent toute la consommation du DC et les annexes techniques  (par ex maintient au chaud des GE... ou le radiateur du bureau du l'employé car il se "caille" dans son bureau fenêtré à 180°... )
Mais tout de même on récupère (presque) toutes les calories que l'on consomme  pour chauffer le DC complètement.
L'air chaud arrivant à 32°dans nos bureaux, il ne faut pas trop de mouvement d'air sinon cela fait un courant d'air.... froid :(

Titre: Coupure Online
Posté par: vivien le 09 juillet 2013 à 23:22:28
Lionel je serais intéressé également par ton avis sur la casse matérielle engendrée par cette coupure.

Je suis étonné de voir de nombreux switchs HS coté Online mais aussi chez les clients comme Synack qui a perdu un Cisco 2960G, toujours dans la salle 103 alimentée par la chaîne A :
Je suis également surpris du nombre de switchs cramés, d'ailleurs de notre côté 1 switch également a cramé (un Cisco 2960G), ce qui est assez surprenant quand tout les serveurs sont repartis sans problème.

Ca "arrive" une panne, à partir du moment où il y a de l'humain et de la conception humaine dans la gestion de quelque chose, le risque 0 n'existe pas.

Par contre je trouve curieux d'arriver à faire tomber 2 chaînes électriques de cette manière et je ne suis pas convaincu par la conception au niveau GE et par le rapport d'incident.

Normalement ce type de matériel est assez robuste, c'est normal de perdre autant de switchs pour une coupure de courant ?

Une sur-tension  ne serais pas plutôt l’explication ? (Outre les 3 groupes, Online à également eu 2 onduleurs HS sur la chaine A, je me demande si une surtension ne pourrait pas expliquer ces problèmes en série)
10:21:34 les onduleurs A4 et A5 de la chaine A sont en défaut, sans coupure et sans conséquence compte tenu de la redondance N+2 de la chaine électrique.

Si c'est normal de perdre un pourcentage élevé de switch à chaque panne de courant, je n'imagine pas les stocks qu'il faut avoir en cas de coupure de l'ensemble du datacenter...
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: Synack le 09 juillet 2013 à 23:36:28
Ce n'est pas les sources des onduleurs qui ont besoin d'être synchronisé, mais la distribution dans les baies!

Ex n°1 : un serveur n'est pas garanti si une phase n'est pas identique entre les 2 alimentations.
Ex n°2 : les switch de bascule automatique entre 2 sources, pour alimenter ces dispositifs doivent être sur la même phase sinon pas de bascule possible dans le temps impartit pour que cette bascule soit invisible.

Pour les transferts de source, il faut faire la différence entre STS et ATS. Le mécanisme est différent, sur le STS il est conseillé d'avoir des phases synchronisées du fait du très faible délai de switching, pas sur les ATS de mémoire (qui lui coupe un relai et active l'autre). Théoriquement je crois que le STS peut passer quand même mais qu'il y a risque (vieux souvenir).

Par contre les produits APC (PDU et ATS) supportent tout de même mal parfois ces perturbations. Il y a quelques années j'ai tristement subi le problème pendant un moment sur un datacenter historique où il y avait la source A ondulée + GE et la source B en direct EDF avec GE en secours sans onduleur.

J'ai eu des gros soucis sur bascule d'une source à l'autre, les équipements APC n'aimaient pas du tout, y compris les ATS censés faire la bascule sans synchro.


De toute manière en électricité il y a pas mal de problématiques qui rendent les choses souvent compliquées, personnellement j'ai abandonné depuis un moment les STS/ATS qui demeurent un SPOF et de même je préfère qu'un DC me propose autant que possible 2 sources avec des chaines totalement séparées (bon personne ne proposera un GE séparé par chaine, mais miser sur un de secours en plus de 2 utiles semble correct).

C'est pour ça aussi que je ne suis pas fan de la solution d'Iliad, c'est malin mais ça revient à ce qu'on trouve pour le stockage, faire du RAID5 à la place du RAID1 ou RAID10. C'est efficace, moins coûteux, mais ça supporte beaucoup moins les pannes. Arriver à faire tomber 2 sources pour 30% du DC en perdant moins de 50% des onduleurs n'est pour moi pas une bonne redondance et lié à ce choix de conception.

Après pour ce qui est de la panne elle même, je pense qu'il y a un défaut d'expérience et de compétence sur place pour savoir gérer et pour prendre la responsabilité de la marche forcée. Je ne le reprocherai pas à Iliad car avoir une personne qualifiée sur les GE sur site ou disponible en moins de temps que se déchargent les onduleurs est assez utopique je pense. Maintenant j'imagine qu'ils sauront dans le futur forcer la marche si ça se reproduit. C'est le métier qui rentre on va dire...
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: Leon le 09 juillet 2013 à 23:50:28
Ce n'est pas les sources des onduleurs qui ont besoin d'être synchronisé, mais la distribution dans les baies!

Ex n°1 : un serveur n'est pas garanti si une phase n'est pas identique entre les 2 alimentations.
Ex n°2 : les switch de bascule automatique entre 2 sources, pour alimenter ces dispositifs doivent être sur la même phase sinon pas de bascule possible dans le temps impartit pour que cette bascule soit invisible.
J'ai bien compris que chez toi les onduleurs étaient synchronisés, mais je ne comprends toujours pas pourquoi. Je n'ai jamais vu de contrainte sur la synchronisation des phases entre 2 alimentations d'un même serveur. Quel constructeur impose ça? Dans quel document? Vu qu'on garantit une isolation galvalique entre l'entrée 240V de l'alim et le reste du serveur (isolation résistant à plus de 1000V), je ne vois vraiment aucun intérêt technique de mettre de telles contraintes.

D'ailleurs, j'ai déjà vu des installations où justement, les chaines d'alimentation étaient volontairement complètement séparées, non synchronisées, et même réalisées avec des onduleurs de marque volontairement différentes.

Du coup, je ne comprends toujours pas bien ta contrainte de coupler les 2 onduleurs, qui ne sont du coup plus si indépendants que ça l'un de l'autre.

Leon.
Titre: Coupure Online
Posté par: Synack le 09 juillet 2013 à 23:54:26
Lionel je serais intéressé également par ton avis sur la casse matérielle engendrée par cette coupure.

Je suis étonné de voir de nombreux switchs HS coté Online mais aussi chez les clients comme Synack qui a perdu un Cisco 2960G, toujours dans la salle 103 alimentée par la chaîne A :
Normalement ce type de matériel est assez robuste, c'est normal de perdre autant de switchs pour une coupure de courant ?

Une sur-tension  ne serais pas plutôt l’explication ? (Outre les 3 groupes, Online à également eu 2 onduleurs HS sur la chaine A, je me demande si une surtension ne pourrait pas expliquer ces problèmes en série)
Si c'est normal de perdre un pourcentage élevé de switch à chaque panne de courant, je n'imagine pas les stocks qu'il faut avoir en cas de coupure de l'ensemble du datacenter...

Hello,

Bon entre temps on est intervenus, en fait "fausse alerte", le switch n'a pas cramé son alim, il était en "défaut" au reload, un bon unplug/replug de l'alim a réglé le problème (bon y'a un doute sur l'action de reboot hard normalement effectuée le jour du problème sans résultat à distance, on verra si ça se reproduit sur les prochains tests)

Bon ça reste bizarre que le switch se soit mis de travers, mais on peut difficilement mettre clairement en cause le comportement de la source électrique du coup.

Il va falloir qu'on déploie sur le site un suivi graphique de la tension et de l'intensité sur pour voir les éventuelles variations sur bascule vers les GE (sachant que normalement c'est filtré par les onduleurs).
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: Synack le 10 juillet 2013 à 00:01:37
J'ai bien compris que chez toi les onduleurs étaient synchronisés, mais je ne comprends toujours pas pourquoi. Je n'ai jamais vu de contrainte sur la synchronisation des phases entre 2 alimentations d'un même serveur. Quel constructeur impose ça? Dans quel document? Vu qu'on garantit une isolation galvalique entre l'entrée 240V de l'alim et le reste du serveur (isolation résistant à plus de 1000V), je ne vois vraiment aucun intérêt technique de mettre de telles contraintes.

D'ailleurs, j'ai déjà vu des installations où justement, les chaines d'alimentation étaient volontairement complètement séparées, non synchronisées, et même réalisées avec des onduleurs de marque volontairement différentes.

Du coup, je ne comprends toujours pas bien ta contrainte de coupler les 2 onduleurs, qui ne sont du coup plus si indépendants que ça l'un de l'autre.

Leon.

Pour les onduleurs effectivement c'est souvent séparé, mais pour les GE ça impliquerait probablement une plus grande complexité non ? Souvent je vois les GE (2 ou 3) couplés pour pouvoir être en cumulé et pour pouvoir basculer le 3eme GE de secours sur l'ensemble des chaines et s'éviter le problème de l'appliquer d'un côté ou de l'autre. Peut-être aussi la volonté d'un DC de se dire que s'il arrive à plus de 100% d'un GE sur un pic, il ne coure pas le risque de ne pas tenir ? (même si ça faudrait pas que ça se sache)

Ce serait intéressant de comparer les schémas des chaines électriques des différents DC, de celles que j'ai vu, les GE sont généralement couplés (et donc synchronisés). Le problème de plusieurs GE en défaut à cause d'un problème de synchro de phase j'ai déjà vu aussi malheureusement...


Egalement peut-être les soucis de STS peuvent pousser à synchroniser la phase ? De toute façon le problème ne se pose que pour les GE non ?
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: Leon le 10 juillet 2013 à 00:11:09
Pour les onduleurs effectivement c'est souvent séparé, mais pour les GE ça impliquerait probablement une plus grande complexité non ? Souvent je vois les GE (2 ou 3) couplés
Justement, dans l'installation que Lionel nous décrit de son datacenter (Maxnod), c'est tout le contraire:  il a 2 groupes non couplés (non synchronisés, l'un en secours de l'autre) et 2 onduleurs redondants, séparés, mais synchronisés. C'est ça qui me parait étrange et que je ne comprends pas. Et le fait que les 2 onduleurs soient couplés lui a visiblement valu une coupure de tout son datacenter il y a quelques temps!

A ma connaissance, la seule contrainte qui impose de synchroniser 2 onduleurs, c'est quand les 2 alimentent le même réseau en aval... Dites moi si je me trompe!

Leon.
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: ldrevon le 10 juillet 2013 à 00:43:40
C'est ça qui me parait étrange et que je ne comprends pas. Et le fait que les 2 onduleurs soient couplés lui a visiblement valu une coupure de tout son datacenter il y a quelques temps!
Leon.
Non dans ce cas précis c'est l'effet maintenance... et du technicien très pro qui a juste oublié de réaliser le seul test qui aurait permis de voir que l'upgrade de firmware avait fait sauté les 2 fusibles sur les 3 présents dans l'onduleur..
Je m'explique car si un jour cela peut servir à quelqu'un on ne sait jamais..
Un upgrade de firmware sur le premier onduleur, tout est ok , test decharge/recharge super mais ce n'était qu'en version logiciel et la carte CPU qui pilote tout le système est alimenté par 3 sources....
Source 1 = Sortie de l'onduleur
Source 2 = Batterie de l'onduleur
Source 3 = Entrée de l'onduleur

Petite différence chez nous, nous avons des circuits redresseurs en IGBT qui redresse le cos phi à l'entrée de l'onduleur, donc on a toujours un cos phi >0.95. Installation peu courante (car plus onéreuse) mais mieux pour les factures coté EDF.
Vous aurez compris que le seul test qui n'a pas été réalisé était celui de la coupure de l'entrée. (bon je ne suis pas fabricant de l'onduleur donc au début je ne pouvais pas savoir que les tests réalisés étaient insuffisants)
Le check du premier onduleur s'est bien passé, le deuxième aussi, et là grand moment de désespoir, bascule de GE vers EDF (petite coupure de 1 S le temps que le switch de puissance bascule -> extinction de la partie régule de l'onduleur-> arrête du courant dans la salle pendant 1 S sur les deux voies...
Aucune alarme tout va bien je vous dis....
Coté positif : Reboot de tous nos serveurs de prod en moins d'1minute aucune alarme générée :) cf point du dessus :)
Coté négatif : avoir dépensé autant d'argent pour avoir un deuxième circuit qui est anéanti par l'oubli d'un ingénieur sur la surconsommation temporaire de la carte CPU pendant le flash du firmware dans le cas d'une alimentation à base d'IGBT...
(processus que l'on avait réalisé au moins 6 fois avant cela et qui n'avait jamais eu de répercussion)

Remplacement des 2 fusibles de 2A par des 4A, et nous voilà reparti vers un meilleur futur:)
Mais comme ce n'est pas suffisant, on a rajouté deux onduleurs supplèmentaires qui sont en parallèle des deux autres.
4 onduleurs de 250kva sur 2 chaines de distribution.

Bon là dans ce cas même si l'impact a été minime en terme de temps  (que 1S!) ce n'est pas le but que l'on s'était fixé.

Le problème N°1 dans les DC, ce sont les maintenances ( même si le circuit de distribution a bien été pensé...)
VadeRetro Satanas!!
Titre: Coupure Online
Posté par: ldrevon le 10 juillet 2013 à 01:00:22
Bon ça reste bizarre que le switch se soit mis de travers, mais on peut difficilement mettre clairement en cause le comportement de la source électrique du coup.

Dans le cas d'une coupure de courant aussi importante, il peut arriver que certains équipements ne reboot plus correctement à cause d'une erreur de crc dans le cmos. Cela ne devrait pas arrivé mais au vu de ma expérience c'est tout sauf rare...
Dans le cas d'un serveur, on s'en aperçoit assez rapidement vu le nombre de boot que l'on fait avant la mise en prod, mais sur un SW, on ne fait jamais de reboot électrique, il est normalement branché sur place et ensuite configuré.
Combien d'upgrade de firmware dans un switch? est-ce qu'on le débranche et rebranche pour vérifier ?
(bon et bien on peut se le dire: non)
Du coup la semaine prochaine, je le ferai sur notre nouveau backbonne :) un petit up/down électrique histoire de vérifier que le dernier firmware est bien opérationnel au reboot
Titre: Coupure Online
Posté par: Synack le 10 juillet 2013 à 01:54:00
Dans le cas d'une coupure de courant aussi importante, il peut arriver que certains équipements ne reboot plus correctement à cause d'une erreur de crc dans le cmos. Cela ne devrait pas arrivé mais au vu de ma expérience c'est tout sauf rare...
Dans le cas d'un serveur, on s'en aperçoit assez rapidement vu le nombre de boot que l'on fait avant la mise en prod, mais sur un SW, on ne fait jamais de reboot électrique, il est normalement branché sur place et ensuite configuré.
Combien d'upgrade de firmware dans un switch? est-ce qu'on le débranche et rebranche pour vérifier ?
(bon et bien on peut se le dire: non)
Du coup la semaine prochaine, je le ferai sur notre nouveau backbonne :) un petit up/down électrique histoire de vérifier que le dernier firmware est bien opérationnel au reboot

Ca pourrait être le cas, cependant il a rebooté proprement sans intervention (rien fait en console) au down/up électrique suivant.

Et puis sur un reload suite à upgrade de firmware, il charge bien ce qui a changé, donc ça devrait se voir aussi non ?
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: thenico le 10 juillet 2013 à 01:58:45
Un peu HS mais j'ai un laptop qui ne peut faire du PXE au boot que sur un cold start (donc coupure électrique).
Sur un reset (warm boot), la machine pense que le câble réseau n'est pas branché (alors que le port est bien affiché comme actif au niveau des voyants).

Ces phénomènes sont rigolos en labo, beaucoup moins en prod :(
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: Leon le 10 juillet 2013 à 06:50:16
Non dans ce cas précis c'est l'effet maintenance... et du technicien très pro qui a juste oublié de réaliser le seul test qui aurait permis de voir que l'upgrade de firmware avait fait sauté les 2 fusibles sur les 3 présents dans l'onduleur..
Je m'explique car si un jour cela peut servir à quelqu'un on ne sait jamais..
Un upgrade de firmware sur le premier onduleur, tout est ok , test decharge/recharge super mais ce n'était qu'en version logiciel et la carte CPU qui pilote tout le système est alimenté par 3 sources....
Source 1 = Sortie de l'onduleur
Source 2 = Batterie de l'onduleur
Source 3 = Entrée de l'onduleur

Petite différence chez nous, nous avons des circuits redresseurs en IGBT qui redresse le cos phi à l'entrée de l'onduleur, donc on a toujours un cos phi >0.95. Installation peu courante (car plus onéreuse) mais mieux pour les factures coté EDF.
Vous aurez compris que le seul test qui n'a pas été réalisé était celui de la coupure de l'entrée. (bon je ne suis pas fabricant de l'onduleur donc au début je ne pouvais pas savoir que les tests réalisés étaient insuffisants)
Le check du premier onduleur s'est bien passé, le deuxième aussi, et là grand moment de désespoir, bascule de GE vers EDF (petite coupure de 1 S le temps que le switch de puissance bascule -> extinction de la partie régule de l'onduleur-> arrête du courant dans la salle pendant 1 S sur les deux voies...
Merci pour cette explication. Effectivement, là, en plus du problème de maintenance, ça montre un problème de conception des 2 onduleurs. A la fois sur le dimensionnement des fusibles. Mais aussi un fusible fondu, sur une des ligues d'alimentation de la carte de pilotage de l'onduleur, ça doit pouvoir se détecter facilement, directement par le logiciel de l'onduleur, et l'onduleur doit pouvoir remonter un défaut dans ce cas...

Plus je réfléchis à tout ça, et plus je me dis que si on basculait l'alimentation des serveurs en courant continu, ça serait plus simple, donc plus fiable. Pas besoin d'onduleur (partie qui construit le courant sinusoidal), les serveurs pouvant être directement branchés sur les batteries, pas besoin de transfert switch (des diodes anti-retour ou équivalent peuvent suffire), pas besoin de synchronisation des groupes, ni de synchronisation des onduleurs, possibilité de raccorder à chaud un producteur (sans besoin de le synchroniser), etc...  Mais aucun constructeur ne veut se lancer. Pourtant, les technologies existent, dans d'autres domaines...

Leon.
Titre: Coupure électrique Online DC2 : Des dizaines de switchs HS
Posté par: vivien le 11 juillet 2013 à 08:29:53
La suite des messages, qui concerne des propositions d'utilisation du courant continu a été déplacée dans le post Courant continu dans les datacenters (https://lafibre.info/datacenter/courant-continu-dans-les-datacenters/).