Mais je ne crains pas la discussion
Si vous voulez en parler, je vais vous dire le fond de ma pensée (en ces quelques lignes...) après ces quelques années de gestion d'un DC.
1: La maintenance : ça craint, tous nos incidents (impactant la production ou pas) trouvent leur source dans la maintenance (incompétence/incompréhension) ou le mensonge (par omission bien entendu) des vendeurs/sous-traitants!
2: Les tests : ils servent.... Je sais c'est dur de l'entendre, mais sans test on ne peut pas être sur que l'infra tient. Les effets de bord étant généralement sous-estimés, les tests permettent de vérifier ce qui peut advenir lors de vrai panne. Soit l'équipe est prête, soit tu pleures.
3: Pour relativiser notre "petit" incident de moins d'une seconde ( 1 seconde sans elect = 1mn sans service si tes serveurs/switchs sont performants..)
Je parle de performance comme étant dans ce cas : le retour de service après coupure électrique en moins de une minute. Si 1 switch, 1 routeur ou 1 serveur met 30m pour reprendre son service il y a une conséquence de panne électrique qui est très impactant. Certes cela est très rare mais cela existe.
4: Le "0" panne n'existe pas car l'humain existe, je sais c'est moche mais c'est la vie
5: Il faut vivre (donc vendre) un produit ou il existe des concurrents qui utilisent aussi le mensonge (par omission bien entendu).
6: Dans le cas de cette panne d'OVH (ce n'est pas la première et ce ne sera pas la dernière car financièrement l'équation est mauvaise), que garantisse-t-il ? du 99.9% ou moins ?
Sur cette année il serait sur du Tier 2(!) (mais pas que cette année)
https://www.ovh.com/fr/serveurs_dedies/comprendre-t3-t4.xml et ce n'est pas par ce que tu cries haut et fort que tu es le plus fort que tu l'es! Les chiffres sont là, ils parlent d'eux même. Le jour ou on pourra tuer tous les escrocs qui font "Prendre des vessies pour des lanternes" le monde ira mieux (mais on n'a pas le droit
)
Donc il faut par conception définir ce qui peut et doit être "secouru" par un autre biais que les dépendances d'un constructeur, d'un mainteneur, ou d'un intervenant.
En résumé si quelqu'un fait une connerie, il ne faut pas que ce soit impactant, il faut rendre les services indépendant les uns des autres et si possible prévoir des doubles commandes partout ou cela est possible... et superviser tout le système tout le temps.
Cela demande un gros travail que peu d'intégrateur réalisent par soucis d'économie, donc si tu payes pas cher, tu en as pour ton prix et ce n'est pas que le matériel qui coute!