Auteur Sujet: Incendie Global Switch Clichy du 26 avril 2023 et ses impacts sur Google Cloud  (Lu 45038 fois)

0 Membres et 1 Invité sur ce sujet

Leon

  • Client SFR sur réseau Numericable
  • Modérateur
  • *
  • Messages: 6 213
Incendie Globalswitch Clichy le 26 avril 2023
« Réponse #24 le: 26 avril 2023 à 21:43:04 »
Est-ce que quelqu'un sait nous dire si l'incident a impacté les 3 "Availability zones" de Google à Paris, simultanément?
 * europe-west9-a
 * europe-west9-b
 * europe-west9-c
Si c'est le cas, et si les acteurs impactés avaient bien une redondance répartie sur plusieurs zones, alors la faute est 100% chez Google!
C'était bien la promesse du concept d'Availability-Zones : des zones indépendantes les unes des autres, et redondantes entre elles, permettant d'atteindre une disponibilité extrêmement élevée, dans le cas d'une infra client redondée sur plusieurs zone.

Leon.

vivien

  • Administrateur
  • *
  • Messages: 48 042
    • Twitter LaFibre.info
Incendie Globalswitch Clichy le 26 avril 2023
« Réponse #25 le: 26 avril 2023 à 21:45:36 »
La communication de Google Cloud à 21h40 (traduite en Français) :


xp25

  • Abonné RED by SFR fibre FttH
  • *
  • Messages: 6 266
Incendie Globalswitch Clichy le 26 avril 2023
« Réponse #26 le: 26 avril 2023 à 21:49:46 »
Ca fait beaucoup là non ?

vivien

  • Administrateur
  • *
  • Messages: 48 042
    • Twitter LaFibre.info
Incendie Globalswitch Clichy le 26 avril 2023
« Réponse #27 le: 26 avril 2023 à 22:05:54 »
Hmm si ? Y a eu des retours détaillés sur frnog.

Exact. Voici les informations diffusées :

10h21 :
Problème de pompe d'eau du circuit de refroidissement, ce qui a généré une accumulation de d'eau et qui a déclenché la fuite.
L'eau de la fuite est descendue sur le local batterie et a provoqué un incendie.
Le directeur du site de GS est toujours en discussion avec les pompiers pour savoir si ils coupent completement le courant du batiment concerné pour l'intervention des pompiers.
Pas de fummée dans les autres salles, c'est confiné à la salle technique où se trouvent les batterie.
Les pompiers sont obligés de laisser bruler les batteries avant d'intervenir.
Prochain point à 11h


11h38 :
La climatisation est revenue et la température dans les salle sont à nouveau OK.
Le local batteries du niveau 1 au sous-sol n'est pas accessible par les pompiers. Ils refroidissent les parois pour contenir le feu mais l'incendie n'est toujours pas maîtrisé.
La coupure électrique est toujours envisagée.


13h : Communication officielle sur Linkedin
Information Suite A L’incident Survenu sur Notre Site de Paris
Un départ d’incendie s'est déclaré ce matin dans une salle de l’un des deux centres de données de notre site parisien. Les pompiers sont intervenus rapidement et l'incendie est désormais maitrisé. Les dispositifs anti-incendie du bâtiment ont parfaitement fonctionné, personne n'a été blessé. Le service de certains de nos clients a été temporairement affecté et notre équipe sur site travaille à le rétablir le plus rapidement possible.


15h15 :
Il semblerait que certaines équipes techniques puissent rentrer dans des salles du L5. Je vous tiens au courant si l'accès redevient possible pour tout le monde.

15h19 :
L’incendie est éteint.
Les pompiers ne peuvent pas encore accéder à la salle des onduleurs/batteries du niveau 1 car la température à l’intérieur était à plus de 65°C (il y a 1h).
Au niveau des impacts, la MRR étant accolée à la salle qui a bien chauffé, l'opérateur Zayo aurait été touché.
Les onduleurs/batteries qui ont brulés sont dédiés au niveau 1 donc les autres niveaux ne sont pas concernés par d'éventuels problèmes de power.


17h22 :
Meeting de crise de 17h00 anticipé à 16h30 suite GO de Global Switch :
Pas de coupure planifiée sur PAR E (cooling/électricité)
L’infrastructure technique est opérationnelle (clim, électricité, sparkshield, …)
Tous les clients de Clichy 1 peuvent donc redémarrer leurs serveurs
Les niveaux L4, L5 et L6 sont accessibles pour les clients MAIS avec un accompagnant GS
Les bureaux sont accessibles à tous
Le L1 (onduleurs et MMR1) reste sous surveillance, seuls les Sapeurs-Pompiers sont autorisés à y pénétrer -> attente de leur validation



vivien

  • Administrateur
  • *
  • Messages: 48 042
    • Twitter LaFibre.info
Incendie Global Switch Clichy le 26 avril 2023
« Réponse #28 le: 26 avril 2023 à 23:07:13 »
Si on regarde l'incendie, c'est catastrophique pour Google qui a eu une cascade d'incidents.

Pour Global Switch Clichy, il ne s'en sort pas trop mal avec un seul étage HS, l'étage 1. Il y a eu des pannes de climatisation aux étages supérieurs, mais pas de coupure électrique. C'est quand même une prouesse de continuer à faire tourner les serveurs dans un bâtiment où une salle batterie est en feu.

Un facteur à participer à limiter l'impact : la salle au niveau 1 (ou au sous-sol). L'impact aurait été peut-être été différent si c'était la salle batterie de 4ème étage qui avait pris feu, vu les quantités d'eau déversé par les pompiers pour refroidir les murs, je pense qu'il aurait fallu éteindre le bâtiment.

Quelle était la technologie de batterie ? Au plomb ? On voit qu'il n'a pas été possible d'éteindre l'incendie : les pompiers ont laissé brûler en empêchant la propagation. Les murs coupe-feu ont montré toute leur efficacité, même au-delà de 2 heures.

thibault64

  • Expert
  • Abonné Bbox fibre
  • *
  • Messages: 365
  • FTTH 2Gbps/900Mbps - Albi (81)
Incendie Global Switch Clichy le 26 avril 2023
« Réponse #29 le: 27 avril 2023 à 01:23:08 »
Espérons que « l’épidémie d’incendies de locaux de batteries » cesse car cela commence à faire beaucoup.. :-\

Espérons également que tous les exploitants de centres de données aient bien pris conscience que ces locaux batteries sont des endroits très critiques et qu’ils sont à surveiller de très près et à construire dorénavant le plus loin possible des infrastructures.
Sans cela, les exploitants s’exposent à de tragiques conséquences d’un point de vu opérationnel, matériel, financier, humain ou réputationnel.

vivien

  • Administrateur
  • *
  • Messages: 48 042
    • Twitter LaFibre.info
Incendie Global Switch Clichy le 26 avril 2023
« Réponse #30 le: 27 avril 2023 à 08:30:27 »
Ce matin Google communique sur une amélioration, avec des services europe-west9 de nouveau disponible. On ne sait pas pourquoi la perte d'une datacenter sur les trois que comporte europe-west9 a été à ce point catastrophique.
- europe-west9-a = Global Switch Clichy
- europe-west9-b = autre availability zone en région parisienne non affectée par l'incendie
- europe-west9-c = autre availability zone en région parisienne non affectée par l'incendie

Résumé : plusieurs services Google Cloud dans la région europe-west9 sont concernés.

Description : une intrusion d'eau dans un centre de données en europe-west9 a provoqué une défaillance multi-cluster qui a entraîné l'arrêt de plusieurs zones. Nous nous attendons à une certaine indisponibilité dans la région europe-west9. Il n'y a pas actuellement d'ETA pour la reprise complète des opérations dans la région europe-west9. Nous nous attendions à une interruption prolongée de certains services. Les clients sont invités à basculer vers d'autres régions s'ils sont concernés.

Les services suivants ont entièrement récupéré en europe-west9 : Google Cloud Storage (GCS) Cloud Key Management Service (KMS) Cloud Identity and Access Management (IAM) Google Kubernetes Engine (GKE)

Les services suivants ont récupéré dans europe-west9-b et europe-west9-c, mais continuent d'être impactés dans europe-west9-a : Google Compute Engine (GCE) Cloud Run Google Cloud Load Balancer (GCLB) DataProc Cloud SQL

Cloud Console : panne globale, qui a été atténuée. Les tâches de gestion devraient être à nouveau opérationnelles pour les opérations en dehors de la région touchée (europe-west9). L'impact principal a été observé du 2023-04-25 23:15:30 PDT au 2023-04-26 03:38:40 PDT.

GCE Global Control Plane : a connu une panne globale, qui a été atténuée. L'impact principal a été observé du 2023-04-25 23:15:20 PDT au 2023-04-26 03:45:30 PDT et a impacté les clients utilisant Global DNS (gDNS). Un impact mondial secondaire pour les échecs d'opération de liste agrégée pour les clients disposant de ressources en europe-west9 a également été atténué. Veuillez consulter le guide de migration de gDNS vers le DNS zonal pour plus d'informations : https://cloud.google.com/compute/docs/internal-dns#migrating-to-zonal

Cloud Pub/Sub : pour plus d'informations sur l'impact continu de Cloud Pub/Sub, veuillez consulter le dernier état ici : https://status.cloud.google.com/incidents/j6LfsjxCXhVDjmGGPhS7#2c2sBHWU84yPDJ8y1ar4

BigQuery : le problème avec Google BigQuery a été résolu pour tous les utilisateurs concernés depuis le mercredi 26/04/2023 à 17h05, États-Unis/Pacifique. Pour plus d'informations, veuillez consulter ici : https://status.cloud.google.com/incidents/TbcwMSkKy8MTmeeEiqaq#scTMecZFsPpiygYrQ9sG

Nous fournirons une mise à jour d'ici le jeudi 2023-04-27 03:00 US/Pacific, ou lors de tout développement significatif.

Diagnostic : les clients peuvent ne pas être en mesure d'accéder aux ressources Cloud dans la région europe-west9.

Solution : les clients peuvent basculer vers des zones situées dans d'autres régions.

pju91

  • Abonné Free fibre
  • *
  • Messages: 953
  • 91
Incendie Global Switch Clichy le 26 avril 2023
« Réponse #31 le: 27 avril 2023 à 08:52:46 »
Ce matin Google communique sur une amélioration, avec des services europe-west9 de nouveau disponible. On ne sait pas pourquoi la perte d'une datacenter sur les trois que comporte europe-west9 a été à ce point catastrophique.
- europe-west9-a = Global Switch Clichy
- europe-west9-b = autre datacenter en région parisienne non affecté par l'incendie
- europe-west9-c = autre datacenter en région parisienne non affecté par l'incendie
Qu'est-ce qui te permet d'affirmer que west9-b et west9-c sont dans d'autres datacenters, hors du campus de Global Switch ?
Global Switch évoque "un départ d’incendie (...) dans une salle de l’un des deux centres de données de notre site parisien".
Par ailleurs, il me semble qu'une zone GCP doit être considérée comme "un domaine de défaillance unique au sein d'une région". Si Global Switch avait indiqué à Google que concernant les adductions électriques, réseau et le froid, il n'y avait pas de SPOF entre des salles distinctes du campus, plusieurs zones GCP ont pu être déployées sur ce site.


Leon

  • Client SFR sur réseau Numericable
  • Modérateur
  • *
  • Messages: 6 213
Incendie Global Switch Clichy le 26 avril 2023
« Réponse #32 le: 27 avril 2023 à 09:04:57 »
Qu'est-ce qui te permet d'affirmer que west9-b et west9-c sont dans d'autres datacenters, hors du campus de Global Switch ?
Global Switch évoque "un départ d’incendie (...) dans une salle de l’un des deux centres de données de notre site parisien".
Par ailleurs, il me semble qu'une zone GCP doit être considérée comme "un domaine de défaillance unique au sein d'une région". Si Global Switch avait indiqué à Google que concernant les adductions électriques, réseau et le froid, il n'y avait pas de SPOF entre des salles distinctes du campus, plusieurs zones GCP ont pu être déployées sur ce site.
+1
Les "availability zones" ne sont pas forcément des datacenters différents. Pour moi, il faut que tu modifies ton texte, Vivien, pour parler d'availability zone, et non de datacenter.
Il est très probable que ces "availability zones" soient dans des zones différentes du même datacenter.

Leon.

vivien

  • Administrateur
  • *
  • Messages: 48 042
    • Twitter LaFibre.info
Incendie Global Switch Clichy le 26 avril 2023
« Réponse #33 le: 27 avril 2023 à 09:25:42 »
J'ai corrigé, mais availability zone est un terme technique qui limite la compréhension du geek moyen.
Ceux qui ne sont pas du métiers ne comprennent pas le terme.

Oui, deux availability zone peuvent être deux salles dans un même datacenter, même si souvent les acteurs essayent d'avoir au minimum des bâtiments différents.

pju91

  • Abonné Free fibre
  • *
  • Messages: 953
  • 91
Incendie Global Switch Clichy le 26 avril 2023
« Réponse #34 le: 27 avril 2023 à 09:26:06 »
Il est très probable que ces "availability zones" soient dans des zones différentes du même datacenter.
C'est pour ça que je ne suis pas complètement d'accord avec ce que tu as écrit hier :
Si c'est le cas, et si les acteurs impactés avaient bien une redondance répartie sur plusieurs zones, alors la faute est 100% chez Google!
La faute est dans ce cas partagée avec Global Switch qui n'a pas respecté une "promesse" d'isolation entre des salles du même campus.

vivien

  • Administrateur
  • *
  • Messages: 48 042
    • Twitter LaFibre.info
Incendie Global Switch Clichy le 26 avril 2023
« Réponse #35 le: 27 avril 2023 à 09:34:12 »
Payplug, la solution de paiement utilisée par de nombreux sites web marchants, dont Scaleway et qui est resté en panne toute la journée d'hier (ce n'est pas encore totalement rétabli) parlait aussi de datacenter pour parler d'availability zones :