Auteur Sujet: Coupure électrique Online DC2 : Des dizaines de switchs HS  (Lu 41232 fois)

0 Membres et 1 Invité sur ce sujet

Leon

  • Client SFR sur réseau Numericable
  • Modérateur
  • *
  • Messages: 6 213
Coupure électrique Online DC2 : Des dizaines de switchs HS
« le: 04 juillet 2013 à 21:14:49 »
Coupure chez Online malgré le niveau de redondance annoncé...

C'est bien du 2N et c'est bien totalement conforme au design tier4, ca offre même une sécurité supplèmentaire intéressante.
C'est une astuce technique (que nous avons documenté dans un cahier des charges "ECS 2.0" que nous allons publier cette année, on en parle dans le RSE du groupe disponible en ligne) qui permet d'augmenter considérablement la puissance utilisée sur chaque chaine, et donc son rendement, en assurant un taux de disponibilité strictement identique. Pas mal de nouveaux datacenters ont repris notre idée.

Explications techniques :
- En temps normal, tu as deux chaines A et B qui sont strictement indépendantes, compartimentées, maintenables sans coupure, chargées en temps normal à maximum 50%.
Depuis ces deux chaines, les baies sont distribuées en double alimentation à raison de 50% sur chaque chaine A et B. Même chose pour la climatisation. En pratique, tu ne dépassera jamais 40%, là ou les équipements sont les moins efficients.
Si la chaine A a un défaut, 100% des baies seront en mode dégradé sur la chaine B qui sera à 100% de charge.

- En Hexaload, tu as 4 chaines primaires, A B C D qui sont strictement indépendantes, compartimentées, maintenables sans coupure (dans le sens de l'Uptime Institute), chargées au maximum à 75%.
Les baies sont alimentées depuis 2 chaines parmi 6 combinaisons (A-B, A-C, A-D, B-C, B-D, C-D) à raison de 50% sur chaque voie.
En pratique, on divise chaque salle de 1600m2 en 6 cages de 250m2 alimenté par deux chaines (ce qui donne les 6 combinaisons sur l'ensemble des 1600m2).
Si D à un défaut, 25% des baies seront en mode dégradé sur les chaines A, B et C, qui seront chargées à 100%. Les 75% autres baies seront toujours en double alimentation.

Le même raisonnement fonctionne aussi avec 3 chaines à 66%. Pareil pour la climatisation, et pareil pour l'extinction incendie.
Outre l'économie considérable liée au rendement des équipements d'infrastructure primaire (50% vs 75%), le "cout" de ta redondance n'est pas x2, mais seulement 25%.

Attention : en tier4 ou en tier3 tu peux tout à fait couper une chaine totalement pour maintenance ou incident. le "+1" n'est pas imposé.
La perte d'une chaine, planifié ou non, est un élèment opérationnel considéré comme "normal" et qui doit être "sans impact"
Cf : http://uptimeinstitute.com/component/docman/doc_download/5-tiers-standard-topology
Si tu ne veux jamais couper, il faut que chaque branche soit "+1" c'est à dire que chaque équipement à son homologue en secours (onduleur, groupes électrogène). C'est notre cas.
Il y a d'autres vraies subtilisées au niveau des groupes électrogènes en tier3 et tier4
Malgré la redondance annoncée équivalente à 2N, voire 2N+1 chez Online, ils ont subi une grosse coupure électrique aujourd'hui sur leur DC2.
https://x.com/online_fr/status/352737589972832256

Bref, j'ai vraiment la désagréable impression que personne, aucun datacenter ne sait garantir l'absence de coupure...

Leon.


vivien

  • Administrateur
  • *
  • Messages: 48 042
    • Twitter LaFibre.info
Coupure Online
« Réponse #1 le: 04 juillet 2013 à 21:28:17 »
Impressionnant les dégâts de la panne.

C'est normal de devoir changer autant de switchs après une panne ?

Pour les serveurs, cela me semble normal d'avoir 1 serveur pour 1000 hs mais les switchs, non !

Exemple de panne serveur fourni par Online dans le tweet où il dit "ton serveur est up, il redémarre pas bien" :

minidou

  • Abonné Orange Fibre
  • *
  • Messages: 403
  • FTTH 1 Gb/s sur Nantes (44)
Coupure Online
« Réponse #2 le: 04 juillet 2013 à 21:36:29 »
panne mécanique sur 33% des GE? bravo

on a déjà vu sur ce forum que le fioul ne devait pas être stocké sur des durées excessives, concrètement, cela peut engranger des pannes mécaniques? (ou empêcher les GE de démarrer?)

vivien

  • Administrateur
  • *
  • Messages: 48 042
    • Twitter LaFibre.info
Coupure Online
« Réponse #3 le: 04 juillet 2013 à 21:46:58 »
Autre chose, si seule la voie A est coupée, cela ne devrait avoir aucun impact vu que les serveurs sont alimentés par deux voies (en cas de serveur avec une seul alim j'ai compris qu'il y a un système de prise multiples avec double alim qui assure la bascule).

J'ai l'impression que dés le deuxième message, on ne connais pas toute la situation. Le message "#dc2 visiblement incident majeur chez ERDF. Pas d'ETA. On est sur GE la température redescend dans les salles" cache beaucoup de choses, car une coupure ERDF qui dure ce n'est pas critique. Et pourquoi la température est montée dans les salles ?

Bref pour moi dés ce message on était déjà plus dans la penne ERDF mais il y avait d'autres incidents. Le message énigmatique suivant le confirme "#dc2 la situation est très compliquée plus d'infos a venir."

Snickerss

  • Expert Free + Client Bbox fibre FTTH
  • Modérateur
  • *
  • Messages: 4 858
  • Mes paroles n'engagent que moi :)
    • BlueSky
Coupure Online
« Réponse #4 le: 04 juillet 2013 à 23:49:01 »
Les clims se sont arrêtées faute de puissance électrique c'est ce que j'ai compris. Ca me parait fou, c'est quand même "banal" une coupure ERDF comme type de problème. C'est comme un moteur qui s'arrête en avion, c'est le B-A-BA de l'urgence  :(

Synack

  • AS16080 Rentabiliweb Telecom
  • Expert
  • *
  • Messages: 689
Coupure Online
« Réponse #5 le: 05 juillet 2013 à 01:55:49 »
Je suis également surpris du nombre de switchs cramés, d'ailleurs de notre côté 1 switch également a cramé (un Cisco 2960G), ce qui est assez surprenant quand tout les serveurs sont repartis sans problème.

Ca "arrive" une panne, à partir du moment où il y a de l'humain et de la conception humaine dans la gestion de quelque chose, le risque 0 n'existe pas.

Par contre je trouve curieux d'arriver à faire tomber 2 chaines électriques de cette manière et je ne suis pas convaincu par la conception au niveau GE et par le rapport d'incident.


Leon

  • Client SFR sur réseau Numericable
  • Modérateur
  • *
  • Messages: 6 213
Coupure Online
« Réponse #6 le: 05 juillet 2013 à 06:49:01 »
Les clims se sont arrêtées faute de puissance électrique c'est ce que j'ai compris.
C'est vrai que c'est étrange de dire ça comme ça, sans avouer qu'il y a eu un gros problème sur les groupes électrogènes.

Les clims sont secourues par les groupes électrogènes, et pas du tout par les onduleurs, sur une installation standard. Or, les groupes électrogènes fournissent toute leur puissance moins de 15 à 20sec après le début de la coupure, en temps normal. C'est beaucoup trop court pour avoir une grosse montée en température dans les salles.

Leon.

cali

  • Officiel Ukrainian Resilient Data Network
  • Fédération FDN
  • *
  • Messages: 2 404
    • Ukrainian Resilient Data Network
Coupure électrique Online DC2 : Des dizaines de switchs HS
« Réponse #7 le: 05 juillet 2013 à 09:12:45 »
Ils ont 6 GE, pour faire tourner le DC il en faut 5... je trouve étrange les switchs qui meurent... Parce que normalement tout doit être connecté aux UPS. Donc même si il y a un soucis électrique les UPS régulent puis maintiennent tout en fonctionnement le temps que les GE se lancent.

vivien

  • Administrateur
  • *
  • Messages: 48 042
    • Twitter LaFibre.info
Coupure électrique Online DC2 : Des dizaines de switchs HS
« Réponse #8 le: 05 juillet 2013 à 09:20:07 »
C'est quoi qui crame dans les switchs Cisco ?

L'alimentation ? Ce serait une sur-tension ?
Les alimentation à découpage des serveurs supportent assez bien une sur-tension, peut-être les switch non ?

Cela me fait penser à l'incident de Redbus en 2006 qui avait connecté en direct les groupes sur les serveurs (après avoir eu de nombreux problèmes) entraînant de nombreuses alim HS.

Citer
Cher client,

Redbus Interhouse, Data Center où sont situés nos équipements dont votre solution d'hébergement a connu aujourdh'ui une crise électrique majeure.

- 10h55 : Une coupure EDF touche tout l'ouest parisien dont le bâtiment
de Redbus Interhouse à Courbevoie. Tout le monde est dans le noir.
- 10h15 : L'équipe Ikoula d'astreinte sur site est renforcée. Effectif à
100% pour parrer à toute éventualité
- 11h54 : L'électricité revient. Tous les équiprements d'Ikoula, dont
votre service, remontent immédiatement. Tout est 100% fonctionnel.

Redbus n'a pas encore expliqué le temps anormal de coupure d'une heure.

- 14h32 : 2e coupure électrique générale
- 15h16 : L'électricité revient mais, la situation est instable

Conséquences des incidents :
- Le bâtiement fonctionne sur deux générateurs (le 3e est apparement cassé)
- Les onduleurs sont vides
- Le dijoncteur principal (EDF) est cassé, rendant la bascule sur le
courant EDF impossible
- Une bascule sur le courant EDF engendrera une nouvelle coupure
- La situation est extrêment instable

Ikoula a pris la décision de ne pas rallumer ses équipements. Les
machines supportent très mal les coupures électriques brutales. Le
risque de dommage est élevé. Un disque dur cassé peut signifier la perte
de données et des heures pour que vous puissiez le remettre opérationnel
à 100%.
Nous avons pris le parti de privilégier vos données et votre temps
plutôt que de remonter aussi vite que possible pour gagner quelques minutes.

Nous avons eu raison.

- 17h01 : 3e coupure générale
- 17h05 : L'électricité revient
- 18h00 : Redbus nous informe que l'intervention sur le dijoncteur
principal n'aura pas lieu ce soir. La situation est cependant plus stable
- 18h30 : Nous rallumons tous nos équipements dont votre solution
d'hébergement
L'équipe Ikoula est toujours au complet pour vosu aider à remonter vos
services à la normal si besoin.

ATTENTION :
L'intervention sur le dijoncteur aura lieu demain. Afin de préserver les
machines, vos données et votre travail, nous éteindrons tous nos
équipements avant celle-ci. Nous vous préviendrons avant bien entendu.
D'ici là, nous vous engageons à procéder à toutes les sauvegardes
nécessaires.

Nous vous présentons nos excuses pour la gêne occasionnée et vous
remercions pour votre confiance.
Nous vous tiendrons informé de l'évolution de la situation.

Cordialement,

Synack

  • AS16080 Rentabiliweb Telecom
  • Expert
  • *
  • Messages: 689
Coupure électrique Online DC2 : Des dizaines de switchs HS
« Réponse #9 le: 05 juillet 2013 à 10:48:47 »
On remplace le switch mort ce matin (vive la redondance), quand j'aurai le switch je regarderait, mais surement l'alim.

Il était sur PDU, mais rien n'exclut une surtension sur le feed à cause des générateurs. J'ai pas les graphs de tension/intensité pour ce site, ce serait intéressant si quelqu'un avait ça pour voir le comportement lors du début du problème.

Par contre ils annoncent 3°C de différence, de mon côté en température ambiante je suis passé de 23°C à 29-30°C sur mes graphs dans la salle 101.

Leon

  • Client SFR sur réseau Numericable
  • Modérateur
  • *
  • Messages: 6 213
Coupure électrique Online DC2 : Des dizaines de switchs HS
« Réponse #10 le: 05 juillet 2013 à 11:48:55 »
Pour l'alim des switches: certains datacenters ont un réseau complètement séparé pour l'alimentation de tous les switches. Cette alimentation est alors secourue par batterie ou onduleur longue durée (plusieurs heures au lieu de quelques dizaines de minutes pour les serveurs). Ca permet de conserver un réseau parfaitement stable, même en cas d'incident électrique majeur. Mais ça reste rare.

La plupart des datacenters ont des switches (les switch des baies de serveur) directement connectés sur le même réseau électrique que les serveurs.

Leon.


BadMax

  • Client Free adsl
  • Expert
  • *
  • Messages: 3 479
  • Malissard (26)
Coupure électrique Online DC2 : Des dizaines de switchs HS
« Réponse #11 le: 05 juillet 2013 à 16:14:30 »
Citer
Pour l'alim des switches: certains datacenters ont un réseau complètement séparé pour l'alimentation de tous les switches. Cette alimentation est alors secourue par batterie ou onduleur longue durée (plusieurs heures au lieu de quelques dizaines de minutes pour les serveurs). Ca permet de conserver un réseau parfaitement stable, même en cas d'incident électrique majeur. Mais ça reste rare.

C'est certainement pour garder une vue sur les équipements type PDU et onduleurs qui sont administrables par réseau Ethernet.

Sinon une alim de switch y'a rien de plus standard, j'ai déjà démonté des routeurs Cisco dont le connecteur d'alim interne était au standard ATX.  Après ça reste des alimentations à découpage et si on lui balance du courant hors norme, ça pête pareil. A voir si elles ne manquent pas de suffisamment de protections ?