La Fibre

Datacenter et équipements réseaux => Datacenter => hébergement Énergie => Discussion démarrée par: BadMax le 17 août 2016 à 20:46:21

Titre: Panne de Delta Airlines: l'analyse (incendie dans le datacenter sur une chaine)
Posté par: BadMax le 17 août 2016 à 20:46:21
http://up2v.nl/2016/08/16/a-reconstruction-of-the-delta-airlines-datacenter-outage/

Le décor:
Citer
Delta Airlines computer systems responsible for  online check-in, kiosks, flight dispatching, crew scheduling, , airport-departure information displays, ticket sales, frequent-flier programs and flight info displays are all located in a single datacenter located in Atlanta, Georgia. Most likely for cost reasons Delta Airlines decided not to operate a twin datacenter concept. Atlanta in the past has not been hit by any serious earthquakes nor floodings. There has been tornado’s but not at a scale which can damage a datacenter. So probably the financial resposible management of Delta believed a single datacenter was the best option.

Acte 1
Citer
At August 8 at around 2:30 AM IT staff of Delta performed a routine scheduled switch to the backup generator.

Acte 2
Citer
This resulted in a spike which  caused a fire in a  Automatic Transfer Switch (ATS). The firebrigade was called.  Firefighters took a while to extinguish the fire.


Fin :D
Citer
About 500 servers were shutdown because there was no power anymore.

Titre: Panne de Delta Airlines: l'analyse
Posté par: Kaelhan le 22 août 2016 à 08:46:19
Merci pour l'article. Outre le fait qu'une compagnie aérienne n'ait qu'un DC et de plus non redondant, on n'ose imaginer ce qui est annoncé chez certains.
Titre: Panne de Delta Airlines: l'analyse
Posté par: vivien le 22 août 2016 à 09:07:26
Si, le datacenter Delta Airlines est redondant :
(https://lafibre.info/images/datacenter/201608_datacenter_delta_airlines.png)

Est-il nécessaire de couper entièrement tout le datacenter suite à un incendie sur une seule voie ?

Si a TH2 il y a un incendie et qu'on coupe les deux voies sur l'ensemble du site, vous imaginez l'impact ? Non je préfère même pas y penser.

L'impact pour Delta :
Des dizaines de milliers de passagers étaient bloqués dans les aéroports à travers le monde, lundi matin, après qu'une panne informatique a cloué au sol tous les vols de Delta Airlines. Les télévisions américaines montraient de longues files d'attente aux comptoirs de la compagnie dans les aéroports américains. À l'aéroport de Los Angeles par exemple les passagers d'un vol pour New York, qui avaient déjà embarqué, ont dû ressortir de l'avion et retourner patienter dans le terminal. D'autres ont passé la nuit près de leur porte d'embarquement à Las Vegas.

[...]

Delta a annulé environ 1000 vols le lundi et un autre 775 mardi car il a travaillé pour obtenir à nouveau ses systèmes pleinement opérationnels. Il a également annulé plus de 300 vols le mercredi et une poignée jeudi.
Titre: Panne de Delta Airlines: l'analyse (incendie dans le datacenter sur une chaine)
Posté par: Kaelhan le 22 août 2016 à 09:39:15
@Vivien : L'image que tu montres est le schéma de principe de fonctionnement avec un ATS qui n'est pas forcèment le schéma grosse maille de distribution électrique de Delta.
En fait, ils n'ont pas coupé, Delta n'avait, de ce que je comprends de l'article,  qu'un ATS et évidemment en cas de feu ou coupure brutale soit sur la carte mère de l'ATS, soit sur l'ATS en lui-même, il n'y a pas de bascule automatique ce qui a interrompu l'arrivée électrique des serveurs, switchs etc...

Ce qui est pas mal aussi est de lire que les équipements du DC n'étaient correctement configurés sur les deux voies...

A ta question, sur le fait de couper tout le DC en cas d'incendie sur une voie ....tout dépend du lieu où se déclare l'incendie  et de la manière dont le DC a été conçu. Si tuas deux (ou plus) arrivées électriques indépendantes qui sont dans deux bâtiments éloignés, tu n'as pas de problème si cela se produit dans un des locaux HT.



Titre: Panne de Delta Airlines: l'analyse (incendie dans le datacenter sur une chaine)
Posté par: BadMax le 22 août 2016 à 11:16:53
Note pour les non-connaisseurs: ATS = Automatic Transfer Switch. Dispositif permettant de passer d'une source (fournisseur d'électricité) à une autre (groupe électrogène). En HT, ce n'est pas transparent (quelques secondes max de coupure) alors qu'en BT (230V) c'est presque transparent. En BT, on utilise des ATS (ou STS) pour les équipements n'ayant qu'une seule alimentation comme les petits switch ou routeurs, en le connectant aux deux alimentations du rack.

Exemple de contrainte à gérer : les deux chaines d'onduleurs sont souvent synchronisées entre elles (soi-disant obligatoire chez Dell pour les double-alims) ce qui nécessite que les chaines d'onduleurs soient à proximité de l'une de l'autre -> par facilité/commodité, on va mettre ces onduleurs dans la même salle. En cas d'incendie dans la salle, on peut perdre les deux chaines.

Içi le problème de Delta semble être lié au fait que 300 serveurs n'étaient connecté que sur une seule voie et que les pompiers ont exigé la coupure complète de cette voie pour pouvoir intervenir et/ou que le déclenchement de l'arrêt d'urgence a provoqué la coupure de toute la chaine (alim HT+ATS+Onduleur(1)).

(1) Il est demandé de couper l'alimentation d'un onduleur avant de pouvoir travailler en amont afin d'éviter tout retour de courant, provoquant ainsi son passage sur batterie

Comme le dit l'article, c'est quand même pas de bol que l'ATS prenne feu. C'est plus courant que ça tombe en panne (blocage sur une position ou "entre deux").
Titre: Panne de Delta Airlines: l'analyse (incendie dans le datacenter sur une chaine)
Posté par: vivien le 22 août 2016 à 12:51:24
Donc en fait le problème c'est juste que 500 serveurs n'étaient connectés qu'a une voie ? C'est étonnant les serveurs haut de gamme ont toujours 2 alim et je suis étonné de voir qq chose d'aussi critique fonctionner sur un serveur entrée de gamme à moins de 1000€ (et sur ces derniers, comme c'est le cas pour le serveur LaFibre.info, on met un ATS dans la baie pour raccorder tous les serveurs avec une seul alim)

Sinon pour l'ATS en haute tension, je pensais a un jeu de barre, donc cela ne devrait pas pouvoir prendre feu ?
Titre: Panne de Delta Airlines: l'analyse (incendie dans le datacenter sur une chaine)
Posté par: BadMax le 22 août 2016 à 14:48:23
Je penche pour une erreur de cablage :
 - les deux PDU de chaque rack ont été cablés sur la même voie
 - ou les serveurs ont été cablés sur des PDU de la même voie (ça peut arriver si on ne pense pas à marquer avec une couleur le cable de la voie 1 pour l'alim 1 et le cable de la voie 2 pour l'alim 2)

Ou une salle "tiers-II like" avec une seule voie d'alimentation mais double PDU (une armoire avec plusieurs départs).

Citer
Sinon pour l'ATS en haute tension, je pensais a un jeu de barre, donc cela ne devrait pas pouvoir prendre feu ?

En cas de défaut, les courants peuvent être si fort que ça peut "souder" deux contacts entre eux -> un (très gros) fusible doit normalement empêcher cela sinon les barres rougissent et provoquent un incendie.

Demande à Arnaud d'Online: il a de jolies photos de départ d'incendie sur de simples raccords 16A sous boite plexo.
Titre: Panne de Delta Airlines: l'analyse (incendie dans le datacenter sur une chaine)
Posté par: Leon le 28 août 2016 à 12:23:00
Exemple de contrainte à gérer : les deux chaines d'onduleurs sont souvent synchronisées entre elles (soi-disant obligatoire chez Dell pour les double-alims)
Lionel Drevon (patron de Adeli - Maxnod) nous en avait déjà parlé. Je comprends l'intérêt de synchroniser pour certains types de "automatic transfert switch", mais je ne comprends pas du tout l'intérêt de synchroniser pour des serveurs qui ont des doubles/triples alim. Chaque alim d'un serveur est totalement indépendante des autres alims. Totalement isolée. On peut isoler jusqu'à plusieurs milliers de volts. Donc je ne comprends pas la contrainte.
Est-ce que quelqu'un a une explication plausible sur ce besoin de synchronisation de 2 alims d'un même serveur?

Exemple de contrainte à gérer : les deux chaines d'onduleurs sont souvent synchronisées entre elles (soi-disant obligatoire chez Dell pour les double-alims) ce qui nécessite que les chaines d'onduleurs soient à proximité de l'une de l'autre -> par facilité/commodité, on va mettre ces onduleurs dans la même salle.
Là, je ne comprends pas non plus. Un câble de synchronisation d'onduleur, c'est un simple câble cat5, de ce que j'en ai vu. Donc je ne vois pas en quoi synchroniser 2 onduleurs nécessiterai de les installer dans une seule et même pièce.

Leon.
Titre: Panne de Delta Airlines: l'analyse (incendie dans le datacenter sur une chaine)
Posté par: BadMax le 28 août 2016 à 17:46:02
Je me pose les mêmes questions que toi. Les seules réponses que j'ai déjà eu "c'est comme ça qu'il faut faire" ne m'ont jamais satisfait et je n'ai jamais trouvé d'explication logique.

C'est pourquoi je pense que c'est fait par commodité : le cable est facile et rapide à mettre en place, pas de risque de coupure, etc.
A moins d'une contrainte d'horloge avec la distance ?

Pour les double-alims c'est irrationnel aussi, d'autant qu'il existe des PDU triphasés qui sortent en C13/C14 ou C19/C20 : qu'est-ce qu'il t'empêche de mettre ton serveur sur deux phases distinctes ? Même si les onduleurs sont synchronisés, les 3 phases restent décalées quoi qu'il arrive. Ca n'a pas de sens.
Titre: Panne de Delta Airlines: l'analyse (incendie dans le datacenter sur une chaine)
Posté par: Leon le 28 août 2016 à 17:53:35
C'est pourquoi je pense que c'est fait par commodité : le cable est facile et rapide à mettre en place, pas de risque de coupure, etc.
A moins d'une contrainte d'horloge avec la distance ?
Franchement, les opérateurs sérieux de datacenter mettent leurs onduleurs redondants dans des salles différentes, isolées entre elles par des murs anti feu.

Peut-être que tu n'as que des expériences avec des datacenters "low cost" qui ne prennent pas ces précautions.

Leon.
Titre: Panne de Delta Airlines: l'analyse (incendie dans le datacenter sur une chaine)
Posté par: BadMax le 28 août 2016 à 17:57:24
C'était pas du low-cost là où j'ai vu ça...

C'était vendu pour du tiers 3...

Je connais aussi une salle avec les onduleurs (APC) en rack 19" au milieu des serveurs. Avec les batteries dedans. Installation validée et tamponnée par les assureurs.
Titre: Panne de Delta Airlines: l'analyse (incendie dans le datacenter sur une chaine)
Posté par: vivien le 28 août 2016 à 18:23:11
Vous voyez où dans la doc de Dell qu'il faut que les 2 chaînes A et B soient synchronisées ?
Titre: Panne de Delta Airlines: l'analyse (incendie dans le datacenter sur une chaine)
Posté par: BadMax le 28 août 2016 à 18:26:12
Perso, jamais lu, juste entendu (plusieurs fois) des techs de support. D'où ma précision "soi-disant".

Le genre de légende tenace.
Titre: Panne de Delta Airlines: l'analyse (incendie dans le datacenter sur une chaine)
Posté par: BadMax le 31 août 2016 à 18:16:40
Un début de réponse ?

http://www.42u.com/phase-synch

Citer
Phase synchronization of the sources is required.  The two AC sources MUST be the same frequency and the Voltage potential difference of the two sources should never be greater than 30 Volts.

Titre: Panne de Delta Airlines: l'analyse (incendie dans le datacenter sur une chaine)
Posté par: vivien le 31 août 2016 à 19:03:56
Je rejoins Leon sur le fait que a synchronisation de phase cela ne me semble complètement inutile pour des serveurs qui transforment l'énergie alternative et énergie continue.

Pour des systèmes spécifiques en alternatif et sans coupure oui, mais on a ce type de matériel dans un datacenter ?
Titre: Panne de Delta Airlines: l'analyse (incendie dans le datacenter sur une chaine)
Posté par: BadMax le 31 août 2016 à 20:01:48
Le pré-requis d'un STS est d'avoir deux sources synchronisées sinon la bascule d'une source à l'autre peut être vue comme une instabilité en aval.

Exemple de doc : (cliquez sur la miniature ci-dessous - le document est au format PDF)
(https://lafibre.info/images/doc/201410_liebert_sts_series_610.jpg) (https://lafibre.info/images/doc/201410_liebert_sts_series_610.pdf)

Maintaining synchronization is critically important for installations with dual power distribution systems. These sites typically feature Liebert Precision Power Centers (PPC) with Liebert Static Bus Transfer Switches (STSs). Each STS has dual inputs: it can receive power from any connected UPS, and switch seamlessly among the UPS systems as long as the UPS outputs are held in close synchronization. This provides redundancy down to the PPC level. It also permits one half of the distribution system (upstream of the STS) to be taken offline for maintenance or repairs.

Pour les double alimentations, j'ai lu l'hypothèse d'un risque pour les techniciens : si les sources ne sont pas synchronisées, l'écart de tension qui en résulterait serait dangeureux en cas de fuite de courant -> j'ai du mal à comprendre car le différentiel interviendrait sauf si... il n'y en a pas :)
Titre: Panne de Delta Airlines: l'analyse (incendie dans le datacenter sur une chaine)
Posté par: alexandreaj le 01 septembre 2016 à 11:34:34
Citer
Est-il nécessaire de couper entièrement tout le datacenter suite à un incendie sur une seule voie ?

Un pompier mal informé sur les contraintes d'exploitation / un peu (trop?) à cheval sur les procédures INC qu'on lui a inculquées
coupera tout le site sans hésiter, car quand le premier véhicule arrive sur intervention, la procédure veut de couper les fluides :
élec , gaz , eau (arrivées d'essence) ...

Après, dans certains DC les responsables de la sécurité incendie travaillent avec les pompiers pour prévoir des procédures adaptées
et concevoir des plans d'intervention pour éviter ces problèmes là.

My 2 cents,
Alexandre
Titre: 50 Hz
Posté par: corrector le 01 septembre 2016 à 13:56:34
A moins d'une contrainte d'horloge avec la distance ?
On se demande comment l'Espagne se synchronise avec la Pologne.
Titre: u
Posté par: abermingham le 01 septembre 2016 à 23:25:41
Je rejoint Leon sur le fait que a synchronisation de phase cela ne me semble complètement inutile pour des serveurs qui transforment l'énergie alternative et énergie continue.

Pour des systèmes spécifiques en alternatif et sans coupure oui, mais on a ce type de matériel dans un datacenter ?

Je confirme, aucun intérêt de synchroniser des chaines entre elles, pour différentes raisons :
- Aucun impact pour les machines double alimentées dans tous les cas. Les doubles alim sont autonomes, couplées coté DC,
- Les onduleurs sont de toute façon synchronisés sur l'amont (edf) via le réseau 2 (L'entrée et la sortie sont quasiment en phase). En temps normal, la source est identique (EDF) donc les sorties de toutes les chaines sont en phase,
- Le seul intérêt est lorsque les chaines fonctionnent en dégradé (sur GE) et que chaque chaine dispose d'un GE distinct, si il y a des STS derrière, design qui ne se fait plus du tout depuis des années

A noter par contre, des onduleurs en parallèle sont nécessairement synchronisées entre eux via un bus externe (principalement pour les courants d'échange et la répartition de la charge aval entre les onduleurs). Seul les onduleurs Eaton n'ont pas besoin de bus de syncho pour la mise en parallèle grâce à leur brevet "hotsync", ce qui évite au passage un gros SPOF bien connus dans les datacenters.

J'espère ne pas avoir perdu toute l'audience :)

Arnaud

Titre: u
Posté par: Leon le 02 septembre 2016 à 07:36:22
Bonjour Arnaud, et merci pour les infos.
- Le seul intérêt est lorsque les chaines fonctionnent en dégradé (sur GE) et que chaque chaine dispose d'un GE distinct, si il y a des STS derrière, design qui ne se fait plus du tout depuis des années
Je n'ai pas compris ça. Peux-tu préciser stp?
Tu veux dire que dans un datacenter moderne, on n'installe plus de STS en aval des onduleurs?

Du coup, ça voudrait dire qu'on ne propose une vraie redondance électrique que pour les équipements informatiques qui possèdent une alimentation redondante?

Leon.
Titre: Panne de Delta Airlines: l'analyse (incendie dans le datacenter sur une chaine)
Posté par: vivien le 02 septembre 2016 à 08:38:44
Il y a bien des STS (Static Transfer Switch) à DC3, mais dans les baies, pour les serveurs et switch avec une seule alimentation, mais est-ce qu'ils nécessitent une synchronisation sachant qu'il y a 4ms de coupure ?

Je pense que Arnaud parlait d'un gros STS a commutation < 4ms, situé à la sortie des onduleurs, pour permettre d'avoir une sécurité avec une seul alim par baie. Quand un datacenter à uniquement des serveurs avec une alimentation unique, la question se pose (je me demande si OVH n'en utilise pas - excepté le très haut de gamme, il y a une seule alim par serveur chez OVH)

Pour les switchs, qui ne possèdent qu'une seule alimentation électrique, Online a placé en bas de baie un commutateur de transfert automatique.

Ces commutateurs possèdent deux cordons d'alimentation (en entrée) qui alimentent la charge raccordée en sortie sur un seul cordon. Si la source d'alimentation électrique principale n'est plus disponible, le commutateur de transfert automatique pour rack utilise l'alimentation de la deuxième source électrique, sans interrompre les charges critiques (le transfert se fait en 4ms).

(https://lafibre.info/images/datacenter/201509_online_dc3_salle3_14.jpg)
Titre: Panne de Delta Airlines: l'analyse (incendie dans le datacenter sur une chaine)
Posté par: BadMax le 02 septembre 2016 à 09:00:38
Il y a bien des STS (Static Transfer Switch) à DC3, mais dans les baies, pour les serveurs et switch avec une seule alimentation, mais est-ce qu'ils nécessitent une synchronisation sachant qu'il y a 4ms de coupure ?

Pour moi, oui il y a besoin.

http://lit.powerware.com/ll_download.asp?file=5102761700_AI%20(web).pdf

Citer
The 2 sources must be synchronized and you should prevent the phase/neutral inversion. A desynchronisation (signaled by the "Site wiring fault" indication LED) betweeen the two phases of the sources is a cause of premature ageing of the STS components.
Titre: Panne de Delta Airlines: l'analyse (incendie dans le datacenter sur une chaine)
Posté par: alexandreaj le 02 septembre 2016 à 10:16:14
Pour moi, oui il y a besoin.
Il n'y en a absolument pas besoin, comme dit plus haut, 4ms de coupure ce n'est rien
pour un serveur qui en règle générale (je ne suis pas allé lire toutes les docs Dell / HP)
ne voit rien tant que ta coupure n'est pas au Hertz (20 ms).

En plus, ça rajoute un SPOF ... 
Titre: Panne de Delta Airlines: l'analyse (incendie dans le datacenter sur une chaine)
Posté par: Leon le 02 septembre 2016 à 10:42:06
En plus, ça rajoute un SPOF ...
Tu es vraiment certain qu'une synchronisation entre 2 onduleurs implique un SPOF?

De ce que j'ai compris, il y a un onduleur Maitre, et un onduleur Esclave. Et s'il y a un problème sur la liaison de synchronisation, alors chaque onduleur redevient "autonome", indépendant des autres.
Donc pour moi, ça n'est pas un SPOF.

Oui, une chaine unique d'onduleurs tous montées en parallèles synchronisés comporte un SPOF. Car si les onduleurs ne sont plus synchronisés, il va y avoir déséquilibre, et ils vont finir par se mettre en défaut (sur-intensité ou autre).
Mais 2 onduleurs électriquement séparés, et synchronisés entre eux, je ne vois pas en quoi ça présenterai un SPOF.

Leon.
Titre: Panne de Delta Airlines: l'analyse (incendie dans le datacenter sur une chaine)
Posté par: corrector le 02 septembre 2016 à 10:55:05
Est-ce qu'ils ont besoin d'être synchronisés?

Si oui, est-ce qu'une désynchronisation entraîne une panne?
Si non, pourquoi s'emm...?
Titre: Panne de Delta Airlines: l'analyse (incendie dans le datacenter sur une chaine)
Posté par: BadMax le 02 septembre 2016 à 11:05:46
Comme l'a dit Arnaud, la synchro n'a vraiment d'intérêt que si les onduleurs n'ont pas la même source, s'ils sont sur des GE séparés par exemple (ou EDF + GE). Par défaut, chacun se synchronise sur EDF.

Il n'y en a absolument pas besoin, comme dit plus haut, 4ms de coupure ce n'est rien
pour un serveur qui en règle générale (je ne suis pas allé lire toutes les docs Dell / HP)
ne voit rien tant que ta coupure n'est pas au Hertz (20 ms).

C'est la doc de EATON qui le dit, pas moi. C'est pas la durée de coupure du point de vue du STS qui compte, c'est du point de vue du consommateur qu'elle est importante : si c'est non synchronisé t'as le risque d'une durée plus importante de coupure (crête à crête). Enfin, y'a aussi le risque d'un "power feedback".

Note: il y a aussi plusieurs scénarios de bascule possible pour un STS, certains nécessitent impérativement une synchro (les 2 sources sont actives pendant un très court laps de temps)
Titre: Panne de Delta Airlines: l'analyse (incendie dans le datacenter sur une chaine)
Posté par: alexandreaj le 02 septembre 2016 à 11:59:08
Tu es vraiment certain qu'une synchronisation entre 2 onduleurs implique un SPOF?

De ce que j'ai compris, il y a un onduleur Maitre, et un onduleur Esclave. Et s'il y a un problème sur la liaison de synchronisation, alors chaque onduleur redevient "autonome", indépendant des autres.
Donc pour moi, ça n'est pas un SPOF.

Oui, une chaine unique d'onduleurs tous montées en parallèles synchronisés comporte un SPOF. Car si les onduleurs ne sont plus synchronisés, il va y avoir déséquilibre, et ils vont finir par se mettre en défaut (sur-intensité ou autre).
Mais 2 onduleurs électriquement séparés, et synchronisés entre eux, je ne vois pas en quoi ça présenterai un SPOF.

Leon.

Toutes mes excuses Leon, je me suis très mal expliqué. Je parlais des ATS en début de chaine Elec.
Pour l'observation sur les onduleurs, nous sommes d'accord, si tu veux "Clusteriser" tes onduleurs, prévoit plusieurs chaines Elec (même si tu ne les clusterisent pas d'ailleurs)

En plus, le fait de laisser le soin au client de mettre un ATS dans sa baie, réduit l'impact en cas de chute d'un équipement.
J'ai aussi déjà vu des montages de clients qui pour éliminer tous les SPOF utilisent 2 ATS/STS branchés tous deux aux 2 voies et chaque STS alimente une alim du End-Device.
(Ou encore plus de cascade mais je ne me souviens plus du montage exact alors je m'abstiendrais)

Mais là je crois que je pars en Hors-Sujet.

Titre: Panne de Delta Airlines: l'analyse (incendie dans le datacenter sur une chaine)
Posté par: Leon le 02 septembre 2016 à 12:41:15
Comme l'a dit Arnaud, la synchro n'a vraiment d'intérêt que si les onduleurs n'ont pas la même source, s'ils sont sur des GE séparés par exemple (ou EDF + GE). Par défaut, chacun se synchronise sur EDF.
Là, franchement, je n'ai pas du tout compris.
OK, quand la source est disponible, les onduleurs sont en phase avec la source.
Mais quand la source est absente pendant plusieurs minutes, aucune synchronisation entre onduleurs n'est possible sans dispositif particulier. Donc si on a besoin de synchro en aval des onduleurs, il faut mettre quelque chose!

Leon.
Titre: Panne de Delta Airlines: l'analyse (incendie dans le datacenter sur une chaine)
Posté par: vivien le 02 septembre 2016 à 14:06:50
En phase, si on part sur une coupure de plusieurs heures, il y a un risque important de ne plus être sychro entre les différentes chaînes (chacune chaîne ayant son groupe bien entendu)

Voici un scénario plausible :
- Panne ERDF de plusieurs heures (par exemple cause disjoncteur haute tension cassé un vendredi soir, pas de réparation possible avant lundi, coucou redbus)
- Après 2 jours sur groupe, un élèment de la chaîne A lâche
- Les serveurs derrières un STS passent de la chaîne A à la chaîne B qui est décalé de 1/4 de phase
Titre: Panne de Delta Airlines: l'analyse (incendie dans le datacenter sur une chaine)
Posté par: abermingham le 02 septembre 2016 à 19:51:34
Là, franchement, je n'ai pas du tout compris.
OK, quand la source est disponible, les onduleurs sont en phase avec la source.
Mais quand la source est absente pendant plusieurs minutes, aucune synchronisation entre onduleurs n'est possible sans dispositif particulier. Donc si on a besoin de synchro en aval des onduleurs, il faut mettre quelque chose!

Leon.

Sauf que ... les onduleurs disposent de leur propre horloge et maintiennent la fréquence pendant la coupure (sur l'aval)
A la reprise, si il y a une légère désyncro, ils se recalent par rapport à l'amont. C'est aussi simple que ça.

Titre: Panne de Delta Airlines: l'analyse (incendie dans le datacenter sur une chaine)
Posté par: abermingham le 02 septembre 2016 à 19:58:51
Tu es vraiment certain qu'une synchronisation entre 2 onduleurs implique un SPOF?

De ce que j'ai compris, il y a un onduleur Maitre, et un onduleur Esclave. Et s'il y a un problème sur la liaison de synchronisation, alors chaque onduleur redevient "autonome", indépendant des autres.
Donc pour moi, ça n'est pas un SPOF.

Oui, une chaine unique d'onduleurs tous montées en parallèles synchronisés comporte un SPOF. Car si les onduleurs ne sont plus synchronisés, il va y avoir déséquilibre, et ils vont finir par se mettre en défaut (sur-intensité ou autre).
Mais 2 onduleurs électriquement séparés, et synchronisés entre eux, je ne vois pas en quoi ça présenterai un SPOF.

Leon.

Concernant les onduleurs couplés/combinés :
OUI, SPOF, et déjà vu plein de fois. (dont un incident grave sur un DC en seine saint denis).
Nous avons déjà eut un incident de ce type sur des Galaxy 7000, un défaut de communication, le bypass se décide de fermer alors que les onduleurs débitent en même temps en mode Online. Les dégats étaient considérables.
Une carte de communication raccordée sur un bus commun a tous les onduleurs, si une carte crame, très souvent l'ensemble du bus est hors service, les onduleurs se découplent et bypass (quand ce scénario est correctement géré par le constructeur, ce qui est rarement/jamais le cas)
Il faut savoir que quand un onduleur crame, ca crame pour de vrai. J'ai déjà envoyé quelques photos sur twitter, ca flash sévère, surtout quand un IGBT s'envoie en l'air
Les onduleurs en "autonome" sont incapables de se répartir la charge, n'ayant pas les informations de courant d'échange des autres onduleurs de la même chaine. Ca ne marche qu'un temps, et encore.

D'expérience, avec une bonne cinquantaine d'onduleurs de forte puissance sur le terrain, seul Eaton s'en sort bien.

Sur des onduleurs séparés

Il n'y a une nouvelle fois aucun intérêt d'être en phase en sortie entre deux chaines différentes.
Et encore, même lorsque les chaines sont en mode GE, sur des GE séparés, même en opposition de phase, les STS vont commuter sans soucis, ils ont des condos pour ça.
Ce design à base de STS est vraiment à proscrire. Ca ne se fait plus depuis le début des années 2000. (le STS étant dans tous les cas un SPOF)
Titre: Panne de Delta Airlines: l'analyse (incendie dans le datacenter sur une chaine)
Posté par: BadMax le 02 septembre 2016 à 20:26:36
Vu le nombre de STS 16A/32A que j'ai vu dans des DC "critiques" ces dernières années, j'ai dû tomber sur un paquet d'exceptions :)
Par contre, je suis d'accord que c'est de la cr**te, ça créé un SPOF.

Titre: Panne de Delta Airlines: l'analyse (incendie dans le datacenter sur une chaine)
Posté par: vivien le 02 septembre 2016 à 21:23:45
C'est nécessaire pour tous les serveurs et switch avec une seule alim.

Vous en voyez beaucoup des switchs de baie avec une double alim ?
Titre: Panne de Delta Airlines: l'analyse (incendie dans le datacenter sur une chaine)
Posté par: BadMax le 02 septembre 2016 à 21:50:06
Les vrais switches pour DC, oui.

Par contre, les opérateurs (Orange et les autres) livrent très très rarement un équipement avec double alimentation, d'abord parce que souvent les routeurs petits/moyens ne le peuvent pas et ensuite, même sur ceux où c'est possible, ils n'ont pas la 2è alim. Sur les équipements optiques, ça dépend. J'ai vu du 48V avec un simple transfo au double atelier 48V.
Titre: Panne de Delta Airlines: l'analyse (incendie dans le datacenter sur une chaine)
Posté par: abermingham le 02 septembre 2016 à 23:38:41
Vu le nombre de STS 16A/32A que j'ai vu dans des DC "critiques" ces dernières années, j'ai dû tomber sur un paquet d'exceptions :)
Par contre, je suis d'accord que c'est de la cr**te, ça créé un SPOF.

Haaa, tu parles de ces STS là, on en a quelques centaines aussi (voir milliers)
Ces d#ubes (peu fiables) font de toute façon un transfert avec coupure (8ms "théorique"), peu importe que ca soit en phase ou en opposition de phase, l'électronique ne contrôle même pas.
Titre: Panne de Delta Airlines: l'analyse (incendie dans le datacenter sur une chaine)
Posté par: BadMax le 05 septembre 2016 à 09:46:41
Alors pourquoi dans la doc Eaton ils disent le contraire ?

Le pré-requis d'un STS est d'avoir deux sources synchronisées sinon la bascule d'une source à l'autre peut être vue comme une instabilité en aval.

Exemple de doc : (cliquez sur la miniature ci-dessous - le document est au format PDF)
(https://lafibre.info/images/doc/201410_liebert_sts_series_610.jpg) (https://lafibre.info/images/doc/201410_liebert_sts_series_610.pdf)

Maintaining synchronization is critically important for installations with dual power distribution systems. These sites typically feature Liebert Precision Power Centers (PPC) with Liebert Static Bus Transfer Switches (STSs). Each STS has dual inputs: it can receive power from any connected UPS, and switch seamlessly among the UPS systems as long as the UPS outputs are held in close synchronization. This provides redundancy down to the PPC level. It also permits one half of the distribution system (upstream of the STS) to be taken offline for maintenance or repairs.
Titre: Panne de Delta Airlines: l'analyse (incendie dans le datacenter sur une chaine)
Posté par: BadMax le 10 septembre 2016 à 07:48:30
Autre documentation, chez APC, cette fois-ci qui dit le contraire :
http://www.directis.fr/userfiles/file/pdf/prod-10230.pdf

Page 3
Citer
Les  sources peuvent être jusqu'à 180 degrés hors  phase

Le temps de commutation est içi entre 8 et 12 ms (pour référence, un onduleur grand public Line-Interactive ou même offline de quelques centaines de VA commute en 4ms).

Ce n'est pas gênant, la norme SSI prévoit jusqu'à 20ms.