Auteur Sujet: Panne de Delta Airlines: l'analyse (incendie dans le datacenter sur une chaine)  (Lu 16545 fois)

0 Membres et 1 Invité sur ce sujet

BadMax

  • Client Free adsl
  • Expert
  • *
  • Messages: 3 481
  • Malissard (26)
http://up2v.nl/2016/08/16/a-reconstruction-of-the-delta-airlines-datacenter-outage/

Le décor:
Citer
Delta Airlines computer systems responsible for  online check-in, kiosks, flight dispatching, crew scheduling, , airport-departure information displays, ticket sales, frequent-flier programs and flight info displays are all located in a single datacenter located in Atlanta, Georgia. Most likely for cost reasons Delta Airlines decided not to operate a twin datacenter concept. Atlanta in the past has not been hit by any serious earthquakes nor floodings. There has been tornado’s but not at a scale which can damage a datacenter. So probably the financial resposible management of Delta believed a single datacenter was the best option.

Acte 1
Citer
At August 8 at around 2:30 AM IT staff of Delta performed a routine scheduled switch to the backup generator.

Acte 2
Citer
This resulted in a spike which  caused a fire in a  Automatic Transfer Switch (ATS). The firebrigade was called.  Firefighters took a while to extinguish the fire.


Fin :D
Citer
About 500 servers were shutdown because there was no power anymore.


Kaelhan

  • Abonné Orange Fibre
  • *
  • Messages: 466
  • Toulouse (31)
Panne de Delta Airlines: l'analyse
« Réponse #1 le: 22 août 2016 à 08:46:19 »
Merci pour l'article. Outre le fait qu'une compagnie aérienne n'ait qu'un DC et de plus non redondant, on n'ose imaginer ce qui est annoncé chez certains.

vivien

  • Administrateur
  • *
  • Messages: 47 086
    • Twitter LaFibre.info
Panne de Delta Airlines: l'analyse
« Réponse #2 le: 22 août 2016 à 09:07:26 »
Si, le datacenter Delta Airlines est redondant :


Est-il nécessaire de couper entièrement tout le datacenter suite à un incendie sur une seule voie ?

Si a TH2 il y a un incendie et qu'on coupe les deux voies sur l'ensemble du site, vous imaginez l'impact ? Non je préfère même pas y penser.

L'impact pour Delta :
Des dizaines de milliers de passagers étaient bloqués dans les aéroports à travers le monde, lundi matin, après qu'une panne informatique a cloué au sol tous les vols de Delta Airlines. Les télévisions américaines montraient de longues files d'attente aux comptoirs de la compagnie dans les aéroports américains. À l'aéroport de Los Angeles par exemple les passagers d'un vol pour New York, qui avaient déjà embarqué, ont dû ressortir de l'avion et retourner patienter dans le terminal. D'autres ont passé la nuit près de leur porte d'embarquement à Las Vegas.

[...]

Delta a annulé environ 1000 vols le lundi et un autre 775 mardi car il a travaillé pour obtenir à nouveau ses systèmes pleinement opérationnels. Il a également annulé plus de 300 vols le mercredi et une poignée jeudi.

Kaelhan

  • Abonné Orange Fibre
  • *
  • Messages: 466
  • Toulouse (31)
@Vivien : L'image que tu montres est le schéma de principe de fonctionnement avec un ATS qui n'est pas forcèment le schéma grosse maille de distribution électrique de Delta.
En fait, ils n'ont pas coupé, Delta n'avait, de ce que je comprends de l'article,  qu'un ATS et évidemment en cas de feu ou coupure brutale soit sur la carte mère de l'ATS, soit sur l'ATS en lui-même, il n'y a pas de bascule automatique ce qui a interrompu l'arrivée électrique des serveurs, switchs etc...

Ce qui est pas mal aussi est de lire que les équipements du DC n'étaient correctement configurés sur les deux voies...

A ta question, sur le fait de couper tout le DC en cas d'incendie sur une voie ....tout dépend du lieu où se déclare l'incendie  et de la manière dont le DC a été conçu. Si tuas deux (ou plus) arrivées électriques indépendantes qui sont dans deux bâtiments éloignés, tu n'as pas de problème si cela se produit dans un des locaux HT.



« Modifié: 22 août 2016 à 09:59:26 par Kaelhan »

BadMax

  • Client Free adsl
  • Expert
  • *
  • Messages: 3 481
  • Malissard (26)
Note pour les non-connaisseurs: ATS = Automatic Transfer Switch. Dispositif permettant de passer d'une source (fournisseur d'électricité) à une autre (groupe électrogène). En HT, ce n'est pas transparent (quelques secondes max de coupure) alors qu'en BT (230V) c'est presque transparent. En BT, on utilise des ATS (ou STS) pour les équipements n'ayant qu'une seule alimentation comme les petits switch ou routeurs, en le connectant aux deux alimentations du rack.

Exemple de contrainte à gérer : les deux chaines d'onduleurs sont souvent synchronisées entre elles (soi-disant obligatoire chez Dell pour les double-alims) ce qui nécessite que les chaines d'onduleurs soient à proximité de l'une de l'autre -> par facilité/commodité, on va mettre ces onduleurs dans la même salle. En cas d'incendie dans la salle, on peut perdre les deux chaines.

Içi le problème de Delta semble être lié au fait que 300 serveurs n'étaient connecté que sur une seule voie et que les pompiers ont exigé la coupure complète de cette voie pour pouvoir intervenir et/ou que le déclenchement de l'arrêt d'urgence a provoqué la coupure de toute la chaine (alim HT+ATS+Onduleur(1)).

(1) Il est demandé de couper l'alimentation d'un onduleur avant de pouvoir travailler en amont afin d'éviter tout retour de courant, provoquant ainsi son passage sur batterie

Comme le dit l'article, c'est quand même pas de bol que l'ATS prenne feu. C'est plus courant que ça tombe en panne (blocage sur une position ou "entre deux").

vivien

  • Administrateur
  • *
  • Messages: 47 086
    • Twitter LaFibre.info
Donc en fait le problème c'est juste que 500 serveurs n'étaient connectés qu'a une voie ? C'est étonnant les serveurs haut de gamme ont toujours 2 alim et je suis étonné de voir qq chose d'aussi critique fonctionner sur un serveur entrée de gamme à moins de 1000€ (et sur ces derniers, comme c'est le cas pour le serveur LaFibre.info, on met un ATS dans la baie pour raccorder tous les serveurs avec une seul alim)

Sinon pour l'ATS en haute tension, je pensais a un jeu de barre, donc cela ne devrait pas pouvoir prendre feu ?

BadMax

  • Client Free adsl
  • Expert
  • *
  • Messages: 3 481
  • Malissard (26)
Je penche pour une erreur de cablage :
 - les deux PDU de chaque rack ont été cablés sur la même voie
 - ou les serveurs ont été cablés sur des PDU de la même voie (ça peut arriver si on ne pense pas à marquer avec une couleur le cable de la voie 1 pour l'alim 1 et le cable de la voie 2 pour l'alim 2)

Ou une salle "tiers-II like" avec une seule voie d'alimentation mais double PDU (une armoire avec plusieurs départs).

Citer
Sinon pour l'ATS en haute tension, je pensais a un jeu de barre, donc cela ne devrait pas pouvoir prendre feu ?

En cas de défaut, les courants peuvent être si fort que ça peut "souder" deux contacts entre eux -> un (très gros) fusible doit normalement empêcher cela sinon les barres rougissent et provoquent un incendie.

Demande à Arnaud d'Online: il a de jolies photos de départ d'incendie sur de simples raccords 16A sous boite plexo.

Leon

  • Client SFR sur réseau Numericable
  • Modérateur
  • *
  • Messages: 5 971
Exemple de contrainte à gérer : les deux chaines d'onduleurs sont souvent synchronisées entre elles (soi-disant obligatoire chez Dell pour les double-alims)
Lionel Drevon (patron de Adeli - Maxnod) nous en avait déjà parlé. Je comprends l'intérêt de synchroniser pour certains types de "automatic transfert switch", mais je ne comprends pas du tout l'intérêt de synchroniser pour des serveurs qui ont des doubles/triples alim. Chaque alim d'un serveur est totalement indépendante des autres alims. Totalement isolée. On peut isoler jusqu'à plusieurs milliers de volts. Donc je ne comprends pas la contrainte.
Est-ce que quelqu'un a une explication plausible sur ce besoin de synchronisation de 2 alims d'un même serveur?

Exemple de contrainte à gérer : les deux chaines d'onduleurs sont souvent synchronisées entre elles (soi-disant obligatoire chez Dell pour les double-alims) ce qui nécessite que les chaines d'onduleurs soient à proximité de l'une de l'autre -> par facilité/commodité, on va mettre ces onduleurs dans la même salle.
Là, je ne comprends pas non plus. Un câble de synchronisation d'onduleur, c'est un simple câble cat5, de ce que j'en ai vu. Donc je ne vois pas en quoi synchroniser 2 onduleurs nécessiterai de les installer dans une seule et même pièce.

Leon.

BadMax

  • Client Free adsl
  • Expert
  • *
  • Messages: 3 481
  • Malissard (26)
Je me pose les mêmes questions que toi. Les seules réponses que j'ai déjà eu "c'est comme ça qu'il faut faire" ne m'ont jamais satisfait et je n'ai jamais trouvé d'explication logique.

C'est pourquoi je pense que c'est fait par commodité : le cable est facile et rapide à mettre en place, pas de risque de coupure, etc.
A moins d'une contrainte d'horloge avec la distance ?

Pour les double-alims c'est irrationnel aussi, d'autant qu'il existe des PDU triphasés qui sortent en C13/C14 ou C19/C20 : qu'est-ce qu'il t'empêche de mettre ton serveur sur deux phases distinctes ? Même si les onduleurs sont synchronisés, les 3 phases restent décalées quoi qu'il arrive. Ca n'a pas de sens.

Leon

  • Client SFR sur réseau Numericable
  • Modérateur
  • *
  • Messages: 5 971
C'est pourquoi je pense que c'est fait par commodité : le cable est facile et rapide à mettre en place, pas de risque de coupure, etc.
A moins d'une contrainte d'horloge avec la distance ?
Franchement, les opérateurs sérieux de datacenter mettent leurs onduleurs redondants dans des salles différentes, isolées entre elles par des murs anti feu.

Peut-être que tu n'as que des expériences avec des datacenters "low cost" qui ne prennent pas ces précautions.

Leon.

BadMax

  • Client Free adsl
  • Expert
  • *
  • Messages: 3 481
  • Malissard (26)
C'était pas du low-cost là où j'ai vu ça...

C'était vendu pour du tiers 3...

Je connais aussi une salle avec les onduleurs (APC) en rack 19" au milieu des serveurs. Avec les batteries dedans. Installation validée et tamponnée par les assureurs.

vivien

  • Administrateur
  • *
  • Messages: 47 086
    • Twitter LaFibre.info
Vous voyez où dans la doc de Dell qu'il faut que les 2 chaînes A et B soient synchronisées ?