Bonjour à tous,
Je vous propose un petit éclairage de ce qu'il s'est passé, étant moi même exploitant de datacenter (et j'en ai designer une grosse partie).
Un datacenter, de manière générale, c'est compliqué à exploiter. Entre les contraintes techniques et financières, il faut faire des choix, et en informer le client pour qu'il ai connaissance du risque.
Pour exemple chez nous, l'autonomie des batteries est en moyenne de 10-15 minutes selon les circuits. On dispose d'un transfo sur boucle directement reliée en 20 kVA au dispatch central de l'arrondissement et alimenté directement par la centrale turbien gaz de Bouchain. Temps de coupure assuré par ErDF et EDF : tranche de 1-2h par an. C'est le risque que ces partenaires nous demandent d'accepter. Connaissant Octave, ce risque était connu et assumé, mais pas expliqué aux clients. L'expression "serrer les fesses" était d'usage, surtout avec une mono adduction électrique.
Du coup, pour prendre en compte ce risque, on dispose d'un groupe électrogène de 450 KVA. C'est notre seul rempart contre la coupure totale. Il est révisé tous les trimestres, testé à vide chaque semaine, et testé en conditions réelles chaque mois. Ce test consiste à ouvrir la cellule HTA alimentant le primaire du transformateur. La détection de coupure étant sur le secondaire, l'automate (sur batterie redondée, et à moteur électrique donc) bascule alors la charge en 5 à 10 secondes. En 7 ans d'exploitations, le groupe a été obligé de démarrer automatiquement 5 fois, pour des durées moyennes de 15 mn à 1h30.
Il est arrivé qu'il ne démarre pas une seule fois. Le test a mis en évidence un problème de puissance sur l'une des batterie. L'automate ayant basculé la charge trop tôt, le moteur n'avait pas encore atteint son régime d'utilisation (1500 tr/mn) et il a calé. Il n'a jamais su redémarrer ensuite (batterie vide). Nous avons donc rebasculé immédiatement sur le secteur, changé la batterie, augmenté le temps d'attente avant bascule, et refait le test immédiatement.
Grace à ces règles strictes et imposée à tout le personnel et prestataires, la disponibilité réelle du circuit 400V dans le datacenter a été de 100 % en 7 ans. On a bien quelques onduleurs qui ont lâchés, mais c'est à ce jour la seule cause de coupure électrique.
Tout ça pour dire que ce métier est précis, sérieux, et surtout, il doit être source de franchise envers les clients. Nos produits, on les vends avec cette chaîne électrique. Elle est expliquée sur notre site. Le client sait pourquoi il paye moins cher qu'ailleurs. Si un élèment change et met en péril cette chaine, il doit être corrigé immédiatement, ou expliqué au client.
Dans cette histoire, c'est là, la vraie erreur d'Octave. Des incidents, ça arrive à tout le monde. La loi de Murphy est là pour nous le rappeler. Nous en aurons aussi un jour, et on y est JAMAIS préparé. Vouloir engager un groupe électrogène manuellement en 8 mn, c'est impossible. C'est également impossible en 15 mn. Vous êtes dans un tel état de stress et de pression que vous ne pouvez pas réfléchir dans le bon sens aussi vite. Il faut sortir la check list, et la dérouler, et ça prend un peu de temps. Pas le choix car le risque d'accident grave est là. Un onduleur, ça explose, un transfo aussi, une cellule HTA et un inverseur, ça peut faire de beaux arcs. Il y a danger pour le mec qui y va sous pression. Les check list sont là pour ça, et il vaut mieux parfois laisser un DC s'éteindre en catastrophe, et limiter cette casse, plutôt que de faire une erreur qui empirerais les choses, ou ralentirait le PRA.
Ensuite, concernant les équipements optiques, là c'est clairement un problème de design, et je suis sur à 99.99 % qu'il est lié à Strasbourg. Je sent venir l'explication de la détection de down de Strasbourg qui a surchargé le CPU en calcul de chemin optique, et qui a fini par faire planter les machines. Cisco a aussi clairement merdé sur le sujet, en ayant vendu un produit mal fini à son client. L'erreur est Humaine, mais celle ci aurait par contre pu être évité très facilement en divisant les systèmes optiques sur des châssis totalement différents. 44 waves, ça se split en 22 par système, et Cisco permet ça très très facilement (pour en avoir déjà utilisé). C'est de la fainéantise ou de l'incompétence sur ce sujet. Maintenant que ce SPOF a été vu, il sera corrigé lundi en quelques heures de taf. C'est franchement dommage à ce niveau de moyens d'ingénierie et de finances.