C'est indiqué dans le lien que j'ai fourni.
Je suis désolé mais la documentation que tu pointes dit l'inverse de ce que tu dis ici:
Les zones servent au déploiement des ressources Google Cloud dans une région. Elles doivent être considérées comme un domaine de défaillance unique au sein d'une région. Pour déployer des applications tolérantes aux pannes et à haute disponibilité, et être mieux protégé contre les défaillances inattendues, déployez vos applications sur plusieurs zones d'une région.
C'est très clair.
40h d'indispo, je n’appelle pas ça de la HA.
40h, c'est une éternité. Sur une infra correctement designée, ok un paramètre a sauté, le load balancer bascule pas, un gus a mis une route statiques, ou que sais-je, mais on trouve le problème qui empêche que ca switch, et on corrige. Au pire 1h après, c'est basculé. Là on parle de 40h, on dirait que les mecs ont juste attendus que les pompiers éteignent l'incendie en salle batterie et reboot les serveurs comme s'il ne s'était rien passé. Franchement, c'est la honte. Cet incident montre que by-design, l'infra n'est pas prévu, ni testé, pour que les zones soient comme ils l'écrivent dans leur doc:
des domaines de défaillance uniques au sein d'une régionPour empêcher la perte d'une région entière à la suite d'une catastrophe naturelle, vous devez disposer d'un plan de reprise après sinistre et savoir comment remettre en service votre application dans le cas peu probable de la perte de votre région principale.
Le cas de Global Switch n'est pas une catastrophe naturelle. C'est un "simple" incendie, mais ça aurait pu être une panne de clim, une panne électrique ou un coup de pelleteuse isolant la zone des deux autres, c'est pareil, perte d'une zone = perte de la région.
Et concernant le déclenchement d'un PRA/DRP, c'est facile de brandir cette carte. Mais un DRP est surtout prévu lors d'une perte définitive. Le déclenchement d'un PRA, c'est procédure de rebuild de la plateforme, restauration des backup, etc... Au niveau décisionnel, étant donné que la source est un incendie qui ne touche supposément qu'une zone, tout les voyants sont aux rouges quant à l'activation d'un PRA.
Et là, on ne parle que des Compute Engine qui est un service "zonale". Car GCP propose d'autres service comme du Pub/Sub, qui sont "régional". Donc perte de la région = perte du service, sans ne pouvoir rien y faire puisqu'on n'a pas la main dessus, c'est GCP qui doit déclencher son PRA... et qui ne l'a pas fait d'ailleurs.