Ca a été un moment particulièrement pénible, vous pouvez me croire ...
L'utilisation de 2 groupes câblés en TWIN nous a sauvé la mise sur la fin des interventions, car le sous-traitant ne maitrisait pas du tout le concept de disponibilité 100 %.
On a perdu plusieurs dizaines de serveurs, de disques (hdd ou ssd), d'alimentations et même des CPU... Les pannes étaient surtout regroupées sur une baie dont l'onduleur a lui aussi rendu l'âme. On suppose qu'il y a eu une bonne surtension sur le réseau au moment de l'arc, ou des harmoniques vraiment badasse.
Les gars dans notre équipe ont tous super bien réagit et ont fait front ensemble face à ce désastre, ça fait vraiment plaisir à voir ! Le plan Blackout a été suivi à la lettre par l'équipe, avec extinction au plus rapide de tous les systèmes critiques en priorité, puis extinction des serveurs. On lance aussi un petit script qui backup et sauvegarde les conf de tout le réseau en quelques secondes tant que les onduleurs sont encore allumés. Tout a fonctionné de ce coté là et quand le jus est revenu, on a pu redémarrer en 30mn pour 50 % des infras, et 1h30 pour 95 %. Vu le nombre de machines (plusieurs milliers), c'est honnête.
Par contre, je vous dis pas le pic de courant au démarrage... Certaines machines avaient un uptime aussi vieux que la construction de la salle. Par exemple sur la salle 1, on était pas loin de 6 ans ...