Auteur Sujet: Incendie Global Switch Clichy du 26 avril 2023 et ses impacts sur Google Cloud  (Lu 39392 fois)

0 Membres et 1 Invité sur ce sujet

vivien

  • Administrateur
  • *
  • Messages: 47 292
    • Twitter LaFibre.info
Incendie Global Switch Clichy du 26 avril 2023 et impacts sur Google Cloud
« Réponse #72 le: 28 avril 2023 à 17:48:21 »
Simon, une personne du forum qui a pas mal d'expérience dans les systèmes de stockage d'énergie argumente pour expliquer que le départ du feu à Global Switch Clichy pourrait être lié à de l'eau sur un onduleur et non de l'eau sur les batteries.

Il n'a pas d'information sur ce qu'il s'est passé à Global Switch Clichy, il se base uniquement sur ses connaissances et son expérience :

Une batterie li-ion (ou plomb d'ailleurs) ne prendrait pas feu au contact de l'eau car la conductivité de l'eau ne serait pas suffisante pour créer un court-circuit. Peut-être avec une eau très conductrice (salée, bourrée d'impuretés, etc.) à la limite, mais honnêtement, je n'y crois pas. Chimiquement, il n'y a pas de réaction avec l'eau.

J'ai été dans des containers remplis de rack li-ion sur lesquels l'eau du circuit de refroidissement avait coulé (eau glycolée) sans que ça ne pose de problème particulier. Normalement, un contrôleur d'isolement détectera la chute de la résistance d'isolement bien avant qu'un court-circuit ne se produise et mettra le système en sécurité en ouvrant tous les contacteurs.

LG-Chem fournit pour leurs racks batterie des systèmes d'extinction incendie par noyage des modules en cas de dégagement de chaleur détecté. Tu penses bien que ce système ne serait pas bien efficace si cela suffisait à créer un court circuit :-)

Par contre, côté onduleurs, l'eau peut largement altérer multiples signaux de commande (car ces signaux sont très faibles), et là :
- soit on fait un shoot trough, où l'un des deux IGBT reste fermé ou se ferme alors qu'il devrait être ouvert, et on connecte directement le + et le - de la batterie, créant ainsi un court-circuit de plusieurs dizaines de milliers d'ampères (~6000-8000 ampères de courant de court-circuit par rack, habituellement),
- soit un IGBT se ferme à moitié à la place de se fermer totalement, chauffe très rapidement du fait de l'effet de joule et explose/prend feu,
- soit on va perturber les mesures de tension/courant, auquel cas l'onduleur va générer un courant et/ou appliquer une tension anormalement élevée, générant un échauffement des batteries,
- pas mal d'autres trucs auxquels je pourrais penser, mais qui sont non triviaux à expliquer :)

D'ailleurs, sur frnog, Ludovic Scotti disait (https://www.mail-archive.com/frnog@frnog.org/msg72330.html) : "Les onduleurs/batteries qui ont brulés sont dédiés au niveau 1 donc les autres niveaux ne sont pas concernés par d'éventuels problèmes de power."
Si les onduleurs ont brulés avec les batteries, ils étaient colocalisés dans la même salle. Un feu d'onduleur qui se propage aux batteries me semble bien plus probable qu'un feu de batterie déclenché par une fuite d'eau.

jack

  • Professionnel des télécoms
  • *
  • Messages: 1 677
  • La Madeleine (59)
Incendie Global Switch Clichy le 26 avril 2023
« Réponse #73 le: 28 avril 2023 à 18:40:24 »
Si le client veut faire de la redondance avec du "multi-cloud", il fait comment? Comment peut-il savoir si ses instances achetées auprès de 2 cloud-provider différents sont dans le même datacenter ou non? Comment savoir s'il y a un SPOF entre 2 cloud-providers?
La seule solution serait que les cloud-providers communiquent sur la localisation exacte (Datacenter + Salle) de chaque service.

Le "multi-cloud" dans un objectif de redondance n'a aucun sens
Le multi-cloud a du sens dans un objectif d'utiliser les meilleurs services de chacun

Comme le dit kgersen, si tu veux de la redondance plus importante, la bonne méthode est d'aller sur plusieurs régions

Quant à l'incident en question, il ne faut pas non plus se prendre la tête ..
La solution parfaite n'existe pas, et nous avons déjà plein d'exemple permettant de souligner l'absurdité du "100% dispo" (un CDN tombe -> plusieurs providers tombent -> ton machin tombe, par exemple ?)

Quand les providers promeuvent le multicloud, ils ne sont pas pour intrinséquement
Ce qu'ils veulent, c'est que toi, qui est chez X, on te facilite la vie pour venir chez moi
Le fait de faciliter ton transfert de chez moi vers Y est un effet de bord qui n'est pas du tout désiré



L'argument économique doit comparer puissance identique et sur une même période d'utilisation.

Les batteries au plomb nécessitent d'être remplacée plus fréquemment.

J'ai entendu des exploitants de datacenter dire que le lithium revenait moins cher.
Ces exploitants ont-ils bien pris en compte le coût d'un datacenter qui brûle ? Je taquine  ;)

kgersen

  • Modérateur
  • Abonné Bbox fibre
  • *
  • Messages: 9 104
  • Paris (75)
Incendie Global Switch Clichy le 26 avril 2023
« Réponse #74 le: 28 avril 2023 à 21:26:38 »
Euh, tu as vraiment lu mon message précédent auquel tu réponds? J'ai l'impression que non.
Si le client veut faire de la redondance avec du "multi-cloud", il fait comment? Comment peut-il savoir si ses instances achetées auprès de 2 cloud-provider différents sont dans le même datacenter ou non? Comment savoir s'il y a un SPOF entre 2 cloud-providers?
La seule solution serait que les cloud-providers communiquent sur la localisation exacte (Datacenter + Salle) de chaque service.
Leon.

Effectivement j'ai mal lu désolé.

Tu ne peux pas figer une instance sur un DC/Salle précis ... c'est tout le principe des public cloud providers multizone...(répartition/équilibrage/maintenance/upgrade au sein d'une meme zone qui peut être sur plusieurs DC/salles).

Apres la redondance multi-cloud c'est plus en mode d'avoir un scénario (PRA) prêt sur un autre provider que l'actif. Du coup c'est au moment du PRA que tu choisi un qui marche ...

Sinon y'a des trucs du style GCP Anthos mais j'ai pas de retex concret la dessus et ta question y reste valide.


xuaeser

  • Abonné RED by SFR fibre FttH
  • *
  • Messages: 121
  • Villeurbanne (69)
Les wave EXA Infra qui passaient par Global Switch Clichy sont toujours down ce 29/04. Et ça ne va pas remonter tout de suite visiblement.
 
Update 25: (2023/04/28 16:45 UTC): EXA has received the following update from our site provider in relation to the current actions; Repair work and clean up of the facility: - Following the incident on the 26th April, there is a lot of smoke damage inside the facility  - A section of dry wall has fallen onto Airco units inside the carrier room  - Contractors are on site carrying out the clean up and repair operations. Due to air quality, for health and safety reasons they are required to wear protective gear. - Works are ongoing and this will take several days to complete (expected to be completed by Tuesday 2nd May) - Air quality tests will be performed following cleanup. Scheduled for Wednesday morning 3rd May. - If tests pass the H&S requirements, our site partner will provide an escorted access to EXA to support recovery process. Critical sparing: - EXA has confirmed critical sparing is in place to cover / replace all of our equipment if required. - Once the site is deemed safe to access, we will coordinate the full assessment and the path to recovery with local teams.  We will continue to follow up with our partner for progress updates and will advise if there is any change to this expected timeline. Next update will be provided at 08:00 GMT on the 29th of April.

pju91

  • Abonné Free fibre
  • *
  • Messages: 863
  • 91
Chez GCP non plus, ça ne va pas remonter tout de suite selon leur bulletin d'hier soir :
Citer
Impact is now limited to services in europe-west9-a. There is no ETA for full recovery of operations in europe-west9-a at this time. We expect to see extended outages for some services.

halesk2k

  • Abonné Sosh fibre
  • *
  • Messages: 57
  • Brétigny-sur-Orge (91)
Incendie Global Switch Clichy le 26 avril 2023
« Réponse #77 le: 08 mai 2023 à 18:38:43 »
Maintenant si t'avais pas prévu d'être multi-région parce que t'as pas lu la doc et mal compris ce qu'est une haute dispo a qui la faute ?

Puisque de toute façon il faut faire une archi multi-région puisque les "availibility zone" ne sont pas des "availability zone". Quel est l’intérêt d'avoir plusieurs availability zone au sein d'une même région dans ce cas?

C'est même contre-productif. Pourquoi redonder sur les 3 AZ de la même région et augmenter les chances de panne sur la région s'il faut de toute façon faire son BCP sur une (voire deux,  because quorum) autres régions?

Leon

  • Client SFR sur réseau Numericable
  • Modérateur
  • *
  • Messages: 6 010
Incendie Global Switch Clichy le 26 avril 2023
« Réponse #78 le: 08 mai 2023 à 19:19:05 »
Puisque de toute façon il faut faire une archi multi-région puisque les "availibility zone" ne sont pas des "availability zone". Quel est l’intérêt d'avoir plusieurs availability zone au sein d'une même région dans ce cas?

C'est même contre-productif. Pourquoi redonder sur les 3 AZ de la même région et augmenter les chances de panne sur la région s'il faut de toute façon faire son BCP sur une (voire deux,  because quorum) autres régions?
+1
Sachant que certaines applications supportent mal la latence entre région, genre des base de données répliquées synchrones.
Demander au client de redonder entre régions, c'est mesquin.

La notion d'Availability Zone, c'est assez explicite, on est tous d'accord (sauf KGersen). Après, si aucun des cloud-provider ne sait / ne veut garantir une vraie indépendance entre ses Availability Zones d'une même région... On est mal.
Chez Scaleway, toutes les Availability Zones de Paris sont routées à DC3, et uniquement à DC3...

Et pour redonder avec plusieurs cloud-provider de la même région, il faudrait savoir où les AZ de chacun se situe très précisément.

Leon.

vivien

  • Administrateur
  • *
  • Messages: 47 292
    • Twitter LaFibre.info
C'est une histoire du prix qu'on est prêt à mettre pour se protéger des risques.

Avoir de la redondance au sein d'une même AZ limite les risque, mais ne les éliminent pas.

On peut rappeler que les avions de Delta Airlines ont été cloués au sol dans le monde entier suite à... la perte d'une chaine électrique dans le datacenter où ils étaient hébergés. Ils avaient tous mis dans un même datacetner qui proposait deux chines électriques, mais il est supposé qu'ils n'avaient pas fait le nécessaire pour connecter tous les serveurs / swithcs aux deux chaines : La perte d'une chaine électrique a cloué les avions au sol.
=> Panne de Delta Airlines: l'analyse (incendie dans le datacenter sur une chaine)

Leon

  • Client SFR sur réseau Numericable
  • Modérateur
  • *
  • Messages: 6 010
Avoir de la redondance au sein d'une même AZ limite les risque, mais ne les éliminent pas.
Vivien, on ne parle pas de redondance au sein d'une AZ ici.
Ici, dans ce fil de discussion, on parle d'indépendance entre les AZ d'une même région, d'absence de SPOF entre 2 AZ d'une même région. C'est très différent.
Désolé, mais la panne de Google du 26 avril est totalement anormale.

Leon.

Optix

  • AS41114 - Expert OrneTHD
  • Abonné Orne THD
  • *
  • Messages: 4 693
  • WOOHOO !
    • OrneTHD
Incendie Global Switch Clichy le 26 avril 2023
« Réponse #81 le: 08 mai 2023 à 19:50:02 »
Puisque de toute façon il faut faire une archi multi-région puisque les "availibility zone" ne sont pas des "availability zone". Quel est l’intérêt d'avoir plusieurs availability zone au sein d'une même région dans ce cas?
Le prix ?  ;)

halesk2k

  • Abonné Sosh fibre
  • *
  • Messages: 57
  • Brétigny-sur-Orge (91)
Incendie Global Switch Clichy le 26 avril 2023
« Réponse #82 le: 08 mai 2023 à 20:17:02 »
Le prix ?  ;)

C'est à dire? Ça coûte moins cher a Google de faire des AZ que du mono-dc ?

Leon

  • Client SFR sur réseau Numericable
  • Modérateur
  • *
  • Messages: 6 010
Incendie Global Switch Clichy le 26 avril 2023
« Réponse #83 le: 08 mai 2023 à 20:19:39 »
C'est à dire? Ça coûte moins cher a Google de faire des AZ que du mono-dc ?
2 hypothèses d'interprétations
 - Soit c'est du second degré de la part d'Optix, pour dire que ça sert à Google à facturer des trucs en plus à leur client... Même s'ils n'assurent pas derrière.
 - Soit c'est pour rappeler que le trafic intra région, entre AZ est moins cher pour un client, par rapport à du traffic inter région.

Leon.