Auteur Sujet: Coupure électrique Online DC2 : Des dizaines de switchs HS  (Lu 41235 fois)

0 Membres et 1 Invité sur ce sujet

Leon

  • Client SFR sur réseau Numericable
  • Modérateur
  • *
  • Messages: 6 213
Coupure électrique Online DC2 : Des dizaines de switchs HS
« Réponse #48 le: 09 juillet 2013 à 22:57:41 »
Merci Lionel, ton avis de professionnel passionné est intéressant.
Alors effectivement il faut remettre à leur place les problèmes rencontrés et dans la techno je commence à connaitre (à mon dépend..) donc effectivement il faut avoir 2 chaines différentes et la succession de panne est normalement indépendante ... sauf pour le cas des onduleurs ou on est obligé d'avoir la même marque pour avoir une synchronisation de phase  entre les 2 distributions.
Et c'est à ce niveau là que la maintenance intervient...
Par rapport à ça, j'ai une question.
Je n'ai pas compris pourquoi tu devais avoir 2 onduleurs synchronisés. Je croyais que tu avais 2 onduleurs sur 2 réseaux de distribution complètement différents, donc avec 2 alimentations différentes par baie. Ce qui permet aux serveurs à alimentation redondée de ne pas subire de coupure... Dans cette configuration, les onduleurs peuvent être complètement indépendants, et n'ont pas besoin d'être synchronisés à ma connaissance. Même en cas d'utilisation d'un transfer-switch par baie (au lieu d'alims redondantes) en amont d'un bandeau de distribution, les sources (onduleurs) n'ont pas besoin d'être synchronisées.

Est-ce que je me trompe? Est-ce que tu n'as qu'1 seul réseau de distribution vers les baies mais des onduleurs redondants, ce qui expliquerai la nécessité de synchronisation? Je ne pense pas, mais bon...

Citer
Maintenant au niveau des GE il faudrait quand même noter qu'aucun constructeur ne veut garantir la synchronisation avec un GE d'une autre marque... (comme les onduleurs...)
Et sur ton datacenter, est-ce que tu synchronise tes 2 groupes, ou alors est-ce que l'un reste systématiquement en secours de l'autre? Donc pas besoin de synchroniser?

Batterie = fuite car forcement pour que cela rentre dans un onduleur ou un serveur (il y a des "demeurés"->ceux qui conçoivent  qui croient aux "commerciaux" -->ceux qui vendent) et qui installent des batteries couchées...
Dans tous les onduleurs à batterie couchée que j'ai vu, dans tous les onduleurs rackables, et dans les serveurs de Google, et même dans les installations de secours critique (genre alarme, équipements incendie, téléphone de secours) j'ai toujours vu des batteries "à électrolyte gélifié", donc totalement étanche. Je ne pense pas que ce genre de batterie puisse fuire... Dis-moi si je me trompe. OK, dans les gros onduleur (centaines de KVA), on mets systématiquement des batteries à électrolyte liquide, car c'est moins cher. Et là, il y a risque de fuite, mais c'est moins grave.

Merci d'avance pour tes réponses!

Leon.

BadMax

  • Client Free adsl
  • Expert
  • *
  • Messages: 3 479
  • Malissard (26)
Coupure électrique Online DC2 : Des dizaines de switchs HS
« Réponse #49 le: 09 juillet 2013 à 22:59:28 »
Euh.... j'ai pleins de batteries gélifiées sous la main, je n'en ai encore jamais vu une avoir une fuite...

Dans un onduleur Merlin-Gerin, elles sont parfois disposées à la verticale.
Dans les onduleurs EMC2 intégrées aux baies, les batteries sont couchées.

ldrevon

  • AS43142 Officiel Adeli
  • Expert
  • *
  • Messages: 645
Coupure électrique Online DC2 : Des dizaines de switchs HS
« Réponse #50 le: 09 juillet 2013 à 23:06:03 »
Promis je t''enverrai des photos... avec la fuite au niveau du connecteur et qui du coup oxyde la connexion de marque M et l'autre de marque U (sur mon bureau)
Bon dans le premier de marque M, il y avait au moins 8 batteries (mais une seule fuite suffit vu qu'elles sont en montées en série..)
Sur les gros onduleurs de la salle par contre il s'agit de batterie gros modèle (pas les 7ha) dont 3 circuits sont branchés en parallèle..
On n'est jamais trop prudent :)


ldrevon

  • AS43142 Officiel Adeli
  • Expert
  • *
  • Messages: 645
Coupure électrique Online DC2 : Des dizaines de switchs HS
« Réponse #51 le: 09 juillet 2013 à 23:14:32 »
... en amont d'un bandeau de distribution, les sources (onduleurs) n'ont pas besoin d'être synchronisées.
Leon.

Ce n'est pas les sources des onduleurs qui ont besoin d'être synchronisé, mais la distribution dans les baies!

Ex n°1 : un serveur n'est pas garanti si une phase n'est pas identique entre les 2 alimentations.
Ex n°2 : les switch de bascule automatique entre 2 sources, pour alimenter ces dispositifs doivent être sur la même phase sinon pas de bascule possible dans le temps impartit pour que cette bascule soit invisible.


ldrevon

  • AS43142 Officiel Adeli
  • Expert
  • *
  • Messages: 645
Coupure électrique Online DC2 : Des dizaines de switchs HS
« Réponse #52 le: 09 juillet 2013 à 23:22:13 »
Et sur ton datacenter, est-ce que tu synchronise tes 2 groupes, ou alors est-ce que l'un reste systématiquement en secours de l'autre? Donc pas besoin de synchroniser?

Oui les GE sont en secours l'un de l'autre et chacun peut prendre la puissance totale du DC avec une marge de manœuvre importante.
En gros l'hiver nous sommes à PUE 1.1 et l'été à <1.3 (mais avec des pointes à 2...)
Je dis bien PUE car on prend ce que l'on facture  en KW à nos clients par rapport au compteur source..
On comprend par conséquent toute la consommation du DC et les annexes techniques  (par ex maintient au chaud des GE... ou le radiateur du bureau du l'employé car il se "caille" dans son bureau fenêtré à 180°... )
Mais tout de même on récupère (presque) toutes les calories que l'on consomme  pour chauffer le DC complètement.
L'air chaud arrivant à 32°dans nos bureaux, il ne faut pas trop de mouvement d'air sinon cela fait un courant d'air.... froid :(


vivien

  • Administrateur
  • *
  • Messages: 48 042
    • Twitter LaFibre.info
Coupure Online
« Réponse #53 le: 09 juillet 2013 à 23:22:28 »
Lionel je serais intéressé également par ton avis sur la casse matérielle engendrée par cette coupure.

Je suis étonné de voir de nombreux switchs HS coté Online mais aussi chez les clients comme Synack qui a perdu un Cisco 2960G, toujours dans la salle 103 alimentée par la chaîne A :
Je suis également surpris du nombre de switchs cramés, d'ailleurs de notre côté 1 switch également a cramé (un Cisco 2960G), ce qui est assez surprenant quand tout les serveurs sont repartis sans problème.

Ca "arrive" une panne, à partir du moment où il y a de l'humain et de la conception humaine dans la gestion de quelque chose, le risque 0 n'existe pas.

Par contre je trouve curieux d'arriver à faire tomber 2 chaînes électriques de cette manière et je ne suis pas convaincu par la conception au niveau GE et par le rapport d'incident.

Normalement ce type de matériel est assez robuste, c'est normal de perdre autant de switchs pour une coupure de courant ?

Une sur-tension  ne serais pas plutôt l’explication ? (Outre les 3 groupes, Online à également eu 2 onduleurs HS sur la chaine A, je me demande si une surtension ne pourrait pas expliquer ces problèmes en série)
10:21:34 les onduleurs A4 et A5 de la chaine A sont en défaut, sans coupure et sans conséquence compte tenu de la redondance N+2 de la chaine électrique.

Si c'est normal de perdre un pourcentage élevé de switch à chaque panne de courant, je n'imagine pas les stocks qu'il faut avoir en cas de coupure de l'ensemble du datacenter...

Synack

  • AS16080 Rentabiliweb Telecom
  • Expert
  • *
  • Messages: 689
Coupure électrique Online DC2 : Des dizaines de switchs HS
« Réponse #54 le: 09 juillet 2013 à 23:36:28 »
Ce n'est pas les sources des onduleurs qui ont besoin d'être synchronisé, mais la distribution dans les baies!

Ex n°1 : un serveur n'est pas garanti si une phase n'est pas identique entre les 2 alimentations.
Ex n°2 : les switch de bascule automatique entre 2 sources, pour alimenter ces dispositifs doivent être sur la même phase sinon pas de bascule possible dans le temps impartit pour que cette bascule soit invisible.

Pour les transferts de source, il faut faire la différence entre STS et ATS. Le mécanisme est différent, sur le STS il est conseillé d'avoir des phases synchronisées du fait du très faible délai de switching, pas sur les ATS de mémoire (qui lui coupe un relai et active l'autre). Théoriquement je crois que le STS peut passer quand même mais qu'il y a risque (vieux souvenir).

Par contre les produits APC (PDU et ATS) supportent tout de même mal parfois ces perturbations. Il y a quelques années j'ai tristement subi le problème pendant un moment sur un datacenter historique où il y avait la source A ondulée + GE et la source B en direct EDF avec GE en secours sans onduleur.

J'ai eu des gros soucis sur bascule d'une source à l'autre, les équipements APC n'aimaient pas du tout, y compris les ATS censés faire la bascule sans synchro.


De toute manière en électricité il y a pas mal de problématiques qui rendent les choses souvent compliquées, personnellement j'ai abandonné depuis un moment les STS/ATS qui demeurent un SPOF et de même je préfère qu'un DC me propose autant que possible 2 sources avec des chaines totalement séparées (bon personne ne proposera un GE séparé par chaine, mais miser sur un de secours en plus de 2 utiles semble correct).

C'est pour ça aussi que je ne suis pas fan de la solution d'Iliad, c'est malin mais ça revient à ce qu'on trouve pour le stockage, faire du RAID5 à la place du RAID1 ou RAID10. C'est efficace, moins coûteux, mais ça supporte beaucoup moins les pannes. Arriver à faire tomber 2 sources pour 30% du DC en perdant moins de 50% des onduleurs n'est pour moi pas une bonne redondance et lié à ce choix de conception.

Après pour ce qui est de la panne elle même, je pense qu'il y a un défaut d'expérience et de compétence sur place pour savoir gérer et pour prendre la responsabilité de la marche forcée. Je ne le reprocherai pas à Iliad car avoir une personne qualifiée sur les GE sur site ou disponible en moins de temps que se déchargent les onduleurs est assez utopique je pense. Maintenant j'imagine qu'ils sauront dans le futur forcer la marche si ça se reproduit. C'est le métier qui rentre on va dire...

Leon

  • Client SFR sur réseau Numericable
  • Modérateur
  • *
  • Messages: 6 213
Coupure électrique Online DC2 : Des dizaines de switchs HS
« Réponse #55 le: 09 juillet 2013 à 23:50:28 »
Ce n'est pas les sources des onduleurs qui ont besoin d'être synchronisé, mais la distribution dans les baies!

Ex n°1 : un serveur n'est pas garanti si une phase n'est pas identique entre les 2 alimentations.
Ex n°2 : les switch de bascule automatique entre 2 sources, pour alimenter ces dispositifs doivent être sur la même phase sinon pas de bascule possible dans le temps impartit pour que cette bascule soit invisible.
J'ai bien compris que chez toi les onduleurs étaient synchronisés, mais je ne comprends toujours pas pourquoi. Je n'ai jamais vu de contrainte sur la synchronisation des phases entre 2 alimentations d'un même serveur. Quel constructeur impose ça? Dans quel document? Vu qu'on garantit une isolation galvalique entre l'entrée 240V de l'alim et le reste du serveur (isolation résistant à plus de 1000V), je ne vois vraiment aucun intérêt technique de mettre de telles contraintes.

D'ailleurs, j'ai déjà vu des installations où justement, les chaines d'alimentation étaient volontairement complètement séparées, non synchronisées, et même réalisées avec des onduleurs de marque volontairement différentes.

Du coup, je ne comprends toujours pas bien ta contrainte de coupler les 2 onduleurs, qui ne sont du coup plus si indépendants que ça l'un de l'autre.

Leon.

Synack

  • AS16080 Rentabiliweb Telecom
  • Expert
  • *
  • Messages: 689
Coupure Online
« Réponse #56 le: 09 juillet 2013 à 23:54:26 »
Lionel je serais intéressé également par ton avis sur la casse matérielle engendrée par cette coupure.

Je suis étonné de voir de nombreux switchs HS coté Online mais aussi chez les clients comme Synack qui a perdu un Cisco 2960G, toujours dans la salle 103 alimentée par la chaîne A :
Normalement ce type de matériel est assez robuste, c'est normal de perdre autant de switchs pour une coupure de courant ?

Une sur-tension  ne serais pas plutôt l’explication ? (Outre les 3 groupes, Online à également eu 2 onduleurs HS sur la chaine A, je me demande si une surtension ne pourrait pas expliquer ces problèmes en série)
Si c'est normal de perdre un pourcentage élevé de switch à chaque panne de courant, je n'imagine pas les stocks qu'il faut avoir en cas de coupure de l'ensemble du datacenter...

Hello,

Bon entre temps on est intervenus, en fait "fausse alerte", le switch n'a pas cramé son alim, il était en "défaut" au reload, un bon unplug/replug de l'alim a réglé le problème (bon y'a un doute sur l'action de reboot hard normalement effectuée le jour du problème sans résultat à distance, on verra si ça se reproduit sur les prochains tests)

Bon ça reste bizarre que le switch se soit mis de travers, mais on peut difficilement mettre clairement en cause le comportement de la source électrique du coup.

Il va falloir qu'on déploie sur le site un suivi graphique de la tension et de l'intensité sur pour voir les éventuelles variations sur bascule vers les GE (sachant que normalement c'est filtré par les onduleurs).

Synack

  • AS16080 Rentabiliweb Telecom
  • Expert
  • *
  • Messages: 689
Coupure électrique Online DC2 : Des dizaines de switchs HS
« Réponse #57 le: 10 juillet 2013 à 00:01:37 »
J'ai bien compris que chez toi les onduleurs étaient synchronisés, mais je ne comprends toujours pas pourquoi. Je n'ai jamais vu de contrainte sur la synchronisation des phases entre 2 alimentations d'un même serveur. Quel constructeur impose ça? Dans quel document? Vu qu'on garantit une isolation galvalique entre l'entrée 240V de l'alim et le reste du serveur (isolation résistant à plus de 1000V), je ne vois vraiment aucun intérêt technique de mettre de telles contraintes.

D'ailleurs, j'ai déjà vu des installations où justement, les chaines d'alimentation étaient volontairement complètement séparées, non synchronisées, et même réalisées avec des onduleurs de marque volontairement différentes.

Du coup, je ne comprends toujours pas bien ta contrainte de coupler les 2 onduleurs, qui ne sont du coup plus si indépendants que ça l'un de l'autre.

Leon.

Pour les onduleurs effectivement c'est souvent séparé, mais pour les GE ça impliquerait probablement une plus grande complexité non ? Souvent je vois les GE (2 ou 3) couplés pour pouvoir être en cumulé et pour pouvoir basculer le 3eme GE de secours sur l'ensemble des chaines et s'éviter le problème de l'appliquer d'un côté ou de l'autre. Peut-être aussi la volonté d'un DC de se dire que s'il arrive à plus de 100% d'un GE sur un pic, il ne coure pas le risque de ne pas tenir ? (même si ça faudrait pas que ça se sache)

Ce serait intéressant de comparer les schémas des chaines électriques des différents DC, de celles que j'ai vu, les GE sont généralement couplés (et donc synchronisés). Le problème de plusieurs GE en défaut à cause d'un problème de synchro de phase j'ai déjà vu aussi malheureusement...


Egalement peut-être les soucis de STS peuvent pousser à synchroniser la phase ? De toute façon le problème ne se pose que pour les GE non ?

Leon

  • Client SFR sur réseau Numericable
  • Modérateur
  • *
  • Messages: 6 213
Coupure électrique Online DC2 : Des dizaines de switchs HS
« Réponse #58 le: 10 juillet 2013 à 00:11:09 »
Pour les onduleurs effectivement c'est souvent séparé, mais pour les GE ça impliquerait probablement une plus grande complexité non ? Souvent je vois les GE (2 ou 3) couplés
Justement, dans l'installation que Lionel nous décrit de son datacenter (Maxnod), c'est tout le contraire:  il a 2 groupes non couplés (non synchronisés, l'un en secours de l'autre) et 2 onduleurs redondants, séparés, mais synchronisés. C'est ça qui me parait étrange et que je ne comprends pas. Et le fait que les 2 onduleurs soient couplés lui a visiblement valu une coupure de tout son datacenter il y a quelques temps!

A ma connaissance, la seule contrainte qui impose de synchroniser 2 onduleurs, c'est quand les 2 alimentent le même réseau en aval... Dites moi si je me trompe!

Leon.

ldrevon

  • AS43142 Officiel Adeli
  • Expert
  • *
  • Messages: 645
Coupure électrique Online DC2 : Des dizaines de switchs HS
« Réponse #59 le: 10 juillet 2013 à 00:43:40 »
C'est ça qui me parait étrange et que je ne comprends pas. Et le fait que les 2 onduleurs soient couplés lui a visiblement valu une coupure de tout son datacenter il y a quelques temps!
Leon.
Non dans ce cas précis c'est l'effet maintenance... et du technicien très pro qui a juste oublié de réaliser le seul test qui aurait permis de voir que l'upgrade de firmware avait fait sauté les 2 fusibles sur les 3 présents dans l'onduleur..
Je m'explique car si un jour cela peut servir à quelqu'un on ne sait jamais..
Un upgrade de firmware sur le premier onduleur, tout est ok , test decharge/recharge super mais ce n'était qu'en version logiciel et la carte CPU qui pilote tout le système est alimenté par 3 sources....
Source 1 = Sortie de l'onduleur
Source 2 = Batterie de l'onduleur
Source 3 = Entrée de l'onduleur

Petite différence chez nous, nous avons des circuits redresseurs en IGBT qui redresse le cos phi à l'entrée de l'onduleur, donc on a toujours un cos phi >0.95. Installation peu courante (car plus onéreuse) mais mieux pour les factures coté EDF.
Vous aurez compris que le seul test qui n'a pas été réalisé était celui de la coupure de l'entrée. (bon je ne suis pas fabricant de l'onduleur donc au début je ne pouvais pas savoir que les tests réalisés étaient insuffisants)
Le check du premier onduleur s'est bien passé, le deuxième aussi, et là grand moment de désespoir, bascule de GE vers EDF (petite coupure de 1 S le temps que le switch de puissance bascule -> extinction de la partie régule de l'onduleur-> arrête du courant dans la salle pendant 1 S sur les deux voies...
Aucune alarme tout va bien je vous dis....
Coté positif : Reboot de tous nos serveurs de prod en moins d'1minute aucune alarme générée :) cf point du dessus :)
Coté négatif : avoir dépensé autant d'argent pour avoir un deuxième circuit qui est anéanti par l'oubli d'un ingénieur sur la surconsommation temporaire de la carte CPU pendant le flash du firmware dans le cas d'une alimentation à base d'IGBT...
(processus que l'on avait réalisé au moins 6 fois avant cela et qui n'avait jamais eu de répercussion)

Remplacement des 2 fusibles de 2A par des 4A, et nous voilà reparti vers un meilleur futur:)
Mais comme ce n'est pas suffisant, on a rajouté deux onduleurs supplèmentaires qui sont en parallèle des deux autres.
4 onduleurs de 250kva sur 2 chaines de distribution.

Bon là dans ce cas même si l'impact a été minime en terme de temps  (que 1S!) ce n'est pas le but que l'on s'était fixé.

Le problème N°1 dans les DC, ce sont les maintenances ( même si le circuit de distribution a bien été pensé...)
VadeRetro Satanas!!