Alors je vais pouvoir me fendre de ma petite réponse :
C'est un incident 'à la con'. Les onduleurs de datacenter, c'est une machinerie assez complexe et tout en bout de la chaîne électrique. Tellement complexes d'ailleurs qu'ils embarquent tout un soft de gestion (firmware) et c'est la mise à jour de ce firmware qui a foiré.
Pour une raison qu'il va falloir reproduire (pas moi hein, les p'tits gars de Maxnod), les deux premiers onduleurs ont été mis à jour sans soucis et le 3ème à planter en entraînant les deux autres (je n'ai pas de détail exact là dessus, on verra demain).
Ca a créé une micro-coupure (quelques millisecondes) suffisant pour faire rebooter un maximum de monde dans le data.
Jusque là, rien de méchant, c'est juste dommage pour l'uptime, tout reboote et reprend la main. Ca c'est la théorie.
Dans la pratique, il y a toujours des vérifs de disques qui se passent mal, des secteurs de boot plus à jour, etc ...
Mais chez nous, on a eu un bonus : un problème de conf sur un routeur a fait que le trafic a été blacklisté (oui, tout) et le défaut n'a pas été assez franc pour faire jouer la redondance.
Avec le techos de Maxnod, nous n'avons pas pu faire repartir le routage ce qui m'a valu de me déplacer pour reconfigurer cette saleté. Au passage, j'ai mis en place la contre-mesure pour que ça n'arrive plus à la prochaine coupure de courant (hum). Du coup, la remise en route a prit un peu de temps mais c'est réglé définitivement (mais comme dirait Murphy, le problème ne ce serait jamais reproduit de toute façon).
Voilà un peu plus de détail sur l'épisode certes pas très agréable mais faisant partie des aléas de cet agglomération de technologie qu'est le net.
Julien Escario