L'Internet, c'est un ensemble de liens indépendants qui sont utilisés par des opérateurs indépendants mais qui collaborent pour tisser un réseau global. Quand une fibre est défaillante, un opérateur peut utiliser une autre fibre d'un même câble. Si tout le câble est sectionné, l'opérateur peut avoir d'autres câbles, et il peut passer par d'autres opérateurs.
Cela n'est pas neutre en terme de latence et de débit, mais il y a quand même beaucoup (assez pour que le réseau ne s'effondre pas sous la demande) même en cas de pannes.
Une centrale c'est une série de systèmes interconnectés, redondants, secourus sur un même site, notamment pour fournir la puissance électrique nécessaire aux équipements de secours :
- alimentation par l'alternateur lui-même
- alimentation par les autres alternateurs
- alimentation par le réseau électrique très haute tension
- plusieurs générateurs diesels de secours
- batteries pour assurer le relais le temps de démarrer les générateurs de secours tout en maintenant les systèmes indispensables
Lorsque le tremblement de terre arrive c'est toutes les installations de la centrale qui sont affectées; quand le tsunami arrive, il attaque le bâtiment des turbines et les autres bâtiments non renforcés servant aux réacteurs 1 à 4 en même temps.
J'ai lu quelque part que le diesel même avait été contaminé par de l'eau de mer; en tout cas, les équipements de secours électriques n'ont pas résisté au tsunami. Les pompes des réacteurs 1, 2 et 3 se sont donc arrêtées.
Si on veut en tirer une observation analogue pour la fiabilité d'un centre informatique, c'est que quelque soit le niveau de redondance :
- de l'alimentation électrique
- de la climatisation
- des câbles réseaux
- des switchs
- des volumes en RAID 1, RAID 5, RAID 51...
- des serveurs virtuels en équilibrage de charge
le tout avec détection des pannes, équilibrage automatique, matériel en spare, remplacement à chaud... en multipliant les probabilités de panne des équipements redondants sur une période donnée (période suffisante pour remplacer un équipement en panne dans le pire des cas), la probabilité des pannes comme évènements indépendants multiples peut être réduite au point d'être négligeable ... mais à un moment on ne peut plus se contenter de multiplier des probabilités, parce que la probabilité d'un évènement impactant tous les équipements devient prépondérante : incendie, inondation, tremblement de terre...
Il vaut mieux avoir, assez loin pour ne pas être impacté en même temps, un site informatique de secours synchronisé et capable de prendre le relais pour maintenir un service critique.