Auteur Sujet: Panne électrique majeure chez OVH (sites inacessibles) (Lu 63299 fois)

ezivoco_163 · « **Réponse #72 le:** 10 novembre 2017 à 19:37:12 »

à vous lire ça ne semble pas très sérieux ce qu'ils ont fait !

et pourtant on nous a toujours présenté ovh comme le summum de la qualité ! $:-\$

Hugues · « **Réponse #73 le:** 10 novembre 2017 à 19:44:38 »

Citation de: ezivoco_163 le 10 novembre 2017 à 19:37:12

et pourtant on nous a toujours présenté ovh comme le summum de la qualité ! $:-\$

Certainement pas non...

Hugues · « **Réponse #74 le:** 10 novembre 2017 à 22:51:02 »

Pour moi ce n'est pas du Low Cost, dans le milieu, beaucoup adorent faire payer ultra cher n'importe quoi, donc forcèment, un truc à un prix raisonnable apparait comme low.

OVH c'est des serveurs à prix raisonnable, avec une infrastructure unique et très particulière.

Comme j'aime le dire : "Il n'y a que ceux qui ne tentent rien qui ne font pas de conneries".

Là, ils ont tenté, ils ont perdu, ils vont assumer, et se relever, là ou OVH a du mérite, c'est qu'ils sont totalement transparents.
Pour avoir souvent les versions internes des évenements avant leur publication (genre la baie qui a pris la flotte), j'apprécie que la version publique soit strictement la même, sans tentative de manipulation (certains concurrents devraient s'en inspirer, suivez mon regard).

Bref, Chez OVH il y'a de tout, les serveurs à pas cher sont... pas chers.

Les vrais gros hosts, c'est juste des bons serveurs à bon prix.

caaptusss · « **Réponse #75 le:** 11 novembre 2017 à 00:51:24 »

Bonjour à tous,

Je vous propose un petit éclairage de ce qu'il s'est passé, étant moi même exploitant de datacenter (et j'en ai designer une grosse partie).

Un datacenter, de manière générale, c'est compliqué à exploiter. Entre les contraintes techniques et financières, il faut faire des choix, et en informer le client pour qu'il ai connaissance du risque.
Pour exemple chez nous, l'autonomie des batteries est en moyenne de 10-15 minutes selon les circuits. On dispose d'un transfo sur boucle directement reliée en 20 kVA au dispatch central de l'arrondissement et alimenté directement par la centrale turbien gaz de Bouchain. Temps de coupure assuré par ErDF et EDF : tranche de 1-2h par an. C'est le risque que ces partenaires nous demandent d'accepter. Connaissant Octave, ce risque était connu et assumé, mais pas expliqué aux clients. L'expression "serrer les fesses" était d'usage, surtout avec une mono adduction électrique.

Du coup, pour prendre en compte ce risque, on dispose d'un groupe électrogène de 450 KVA. C'est notre seul rempart contre la coupure totale. Il est révisé tous les trimestres, testé à vide chaque semaine, et testé en conditions réelles chaque mois. Ce test consiste à ouvrir la cellule HTA alimentant le primaire du transformateur. La détection de coupure étant sur le secondaire, l'automate (sur batterie redondée, et à moteur électrique donc) bascule alors la charge en 5 à 10 secondes. En 7 ans d'exploitations, le groupe a été obligé de démarrer automatiquement 5 fois, pour des durées moyennes de 15 mn à 1h30.
Il est arrivé qu'il ne démarre pas une seule fois. Le test a mis en évidence un problème de puissance sur l'une des batterie. L'automate ayant basculé la charge trop tôt, le moteur n'avait pas encore atteint son régime d'utilisation (1500 tr/mn) et il a calé. Il n'a jamais su redémarrer ensuite (batterie vide). Nous avons donc rebasculé immédiatement sur le secteur, changé la batterie, augmenté le temps d'attente avant bascule, et refait le test immédiatement.

Grace à ces règles strictes et imposée à tout le personnel et prestataires, la disponibilité réelle du circuit 400V dans le datacenter a été de 100 % en 7 ans. On a bien quelques onduleurs qui ont lâchés, mais c'est à ce jour la seule cause de coupure électrique.

Tout ça pour dire que ce métier est précis, sérieux, et surtout, il doit être source de franchise envers les clients. Nos produits, on les vends avec cette chaîne électrique. Elle est expliquée sur notre site. Le client sait pourquoi il paye moins cher qu'ailleurs. Si un élèment change et met en péril cette chaine, il doit être corrigé immédiatement, ou expliqué au client.

Dans cette histoire, c'est là, la vraie erreur d'Octave. Des incidents, ça arrive à tout le monde. La loi de Murphy est là pour nous le rappeler. Nous en aurons aussi un jour, et on y est JAMAIS préparé. Vouloir engager un groupe électrogène manuellement en 8 mn, c'est impossible. C'est également impossible en 15 mn. Vous êtes dans un tel état de stress et de pression que vous ne pouvez pas réfléchir dans le bon sens aussi vite. Il faut sortir la check list, et la dérouler, et ça prend un peu de temps. Pas le choix car le risque d'accident grave est là. Un onduleur, ça explose, un transfo aussi, une cellule HTA et un inverseur, ça peut faire de beaux arcs. Il y a danger pour le mec qui y va sous pression. Les check list sont là pour ça, et il vaut mieux parfois laisser un DC s'éteindre en catastrophe, et limiter cette casse, plutôt que de faire une erreur qui empirerais les choses, ou ralentirait le PRA.

Ensuite, concernant les équipements optiques, là c'est clairement un problème de design, et je suis sur à 99.99 % qu'il est lié à Strasbourg. Je sent venir l'explication de la détection de down de Strasbourg qui a surchargé le CPU en calcul de chemin optique, et qui a fini par faire planter les machines. Cisco a aussi clairement merdé sur le sujet, en ayant vendu un produit mal fini à son client. L'erreur est Humaine, mais celle ci aurait par contre pu être évité très facilement en divisant les systèmes optiques sur des châssis totalement différents. 44 waves, ça se split en 22 par système, et Cisco permet ça très très facilement (pour en avoir déjà utilisé). C'est de la fainéantise ou de l'incompétence sur ce sujet. Maintenant que ce SPOF a été vu, il sera corrigé lundi en quelques heures de taf. C'est franchement dommage à ce niveau de moyens d'ingénierie et de finances.

xp25 · « **Réponse #76 le:** 11 novembre 2017 à 01:37:09 »

Fainéantise et incompétence.

Les deux mots qui résume parfaitement toute notre société actuelle.

Merci caaptusss, pas besoin d'en rajouter

underground78 · « **Réponse #77 le:** 11 novembre 2017 à 06:36:21 »

Citation de: Leon le 10 novembre 2017 à 18:01:01

8 minutes ça me semble effectivement très court.

Il me semble que c'est très classique comme autonomie sur onduleurs.

Leon · « **Réponse #78 le:** 11 novembre 2017 à 07:37:24 »

Citation de: Nico le 09 novembre 2017 à 19:15:33

Sauf si c'est le principe même de leur ring WDM .

Citation de: caaptusss le 11 novembre 2017 à 00:51:24

Ensuite, concernant les équipements optiques, là c'est clairement un problème de design, et je suis sur à 99.99 % qu'il est lié à Strasbourg. Je sent venir l'explication de la détection de down de Strasbourg qui a surchargé le CPU en calcul de chemin optique, et qui a fini par faire planter les machines. Cisco a aussi clairement merdé sur le sujet, en ayant vendu un produit mal fini à son client. L'erreur est Humaine, mais celle ci aurait par contre pu être évité très facilement en divisant les systèmes optiques sur des châssis totalement différents. 44 waves, ça se split en 22 par système, et Cisco permet ça très très facilement (pour en avoir déjà utilisé). C'est de la fainéantise ou de l'incompétence sur ce sujet. Maintenant que ce SPOF a été vu, il sera corrigé lundi en quelques heures de taf. C'est franchement dommage à ce niveau de moyens d'ingénierie et de finances.

Le concept de ring WDM, ça existe depuis très longtemps. J'avais vu ça il y a 15 ans, donc ça doit être encore plus vieux (à l'époque c'était avec des optiques non configurables par soft, ça explique certainement des choses). Et avec un tel ring bien conçu, si chaque site vital possède bien 2 chassis optiques bien séparés mais quand même reliés entre eux pour y faire transiter toutes les longueurs d'ondes, chacun des chassis optiques étant reliés à des routeurs différents, alors il est clairement possible de faire une archi globale sans aucun SPOF.
Je ne vois vraiment pas comment on peut mettre un SPOF dans une telle archi, j'aimerais bien avoir des détails.
Le gros avantage de ce genre d'archi étant le temps très court de reprise d'une défaillance (centaines de millisecondes maxi), contre plusieurs dizaines de secondes à plusieurs minutes si on fait confiance aux protocoles de routages pour converger.

Citation de: caaptusss le 11 novembre 2017 à 00:51:24

Pour exemple chez nous, l'autonomie des batteries est en moyenne de 10-15 minutes selon les circuits. On dispose d'un transfo sur boucle directement reliée en 20 kVA au dispatch central de l'arrondissement et alimenté directement par la centrale turbien gaz de Bouchain. Temps de coupure assuré par ErDF et EDF : tranche de 1-2h par an. C'est le risque que ces partenaires nous demandent d'accepter. Connaissant Octave, ce risque était connu et assumé, mais pas expliqué aux clients. L'expression "serrer les fesses" était d'usage, surtout avec une mono adduction électrique.

Du coup, pour prendre en compte ce risque, on dispose d'un groupe électrogène de 450 KVA. C'est notre seul rempart contre la coupure totale. Il est révisé tous les trimestres, testé à vide chaque semaine, et testé en conditions réelles chaque mois. Ce test consiste à ouvrir la cellule HTA alimentant le primaire du transformateur. La détection de coupure étant sur le secondaire, l'automate (sur batterie redondée, et à moteur électrique donc) bascule alors la charge en 5 à 10 secondes. En 7 ans d'exploitations, le groupe a été obligé de démarrer automatiquement 5 fois, pour des durées moyennes de 15 mn à 1h30.
[...]
Grace à ces règles strictes et imposée à tout le personnel et prestataires, la disponibilité réelle du circuit 400V dans le datacenter a été de 100 % en 7 ans. On a bien quelques onduleurs qui ont lâchés, mais c'est à ce jour la seule cause de coupure électrique.

Si je comprends bien, tu te félicites d'une dispo de quasi 100% dans ton datacenter, alors que vous n'avez qu'une seule arrivée électrique et un seul groupe électrogène... Etrange.
Donc vous êtes clairement dans une archi "on serre les fesses et on voit si ça tient", c'est bien ça?

Du coup, comme tu le préconises, est-ce que vous communiquez auprès de vos client sur le (très) faible niveau de redondance de votre chaine d'alimentation électrique, qui semble carrèment plus faible que ce que propose OVH (ou Online), pour qu'ils soient au courant de ce qu'ils achètent?

Leon.

vivien · « **Réponse #79 le:** 11 novembre 2017 à 07:57:08 »

Citation de: Hugues le 10 novembre 2017 à 22:51:02

Pour moi ce n'est pas du Low Cost, dans le milieu, beaucoup adorent faire payer ultra cher n'importe quoi, donc forcèment, un truc à un prix raisonnable apparait comme low.

OVH a des interconnexions et un réseau propre très important. OVH est interconnecté en direct avec tous les FAI important d'Europe et des Amérique du nord.
=> Sur les interconnexions (peering / transit), on peut donc dire que c'est du haut de gamme. Peu d'hébergeurs au niveau mondial peuvent se targuer d'avoir autant d'interconnexion directe avec les opérateurs.

Coté alimentation électrique, le fait d'avoir des datacenter avec une seule chaîne électrique, c'est rare. Sur ce point là, c'est du low-cost.
Maintenant avec deux chaînes électriques indépendantes pour alimenter les serveurs n'est pas une garantie de ne pas avoir d'incident, même si cela diminue très fortement le risque => Coupure chez Online malgré le niveau de redondance annoncé...

Sur la climatisation, le fait de ne pas climatiser les serveurs, c'est rare. Sur ce point là, c'est du low-cost.
Après on peut avoir de la redondance sur la climatisation. On a vu que sur TH2, malgré deux chaînes de climatisation théoriquement indépendante, on a eu une coupure de clim => Ptit coup de chaud à Telehouse 2

Sur la protection incendie, là aussi c'est du low-cost chez OVH. Il y a un sujet dédié : OVH et la protection incendie

Un autre point important pour un datacenter, c'est la sécurité physique (empêcher les intrusions avec un système d’accès, des portes blindées, de la vidéo surveillance). Je n'ai pas de compétences pour évaluer ce point.

Leon · « **Réponse #80 le:** 11 novembre 2017 à 09:58:44 »

Citation de: vivien le 11 novembre 2017 à 07:57:08

Coté alimentation électrique, le fait d'avoir des datacenter avec une seule chaîne électrique, c'est rare. Sur ce point là, c'est du low-cost.
Maintenant avec deux chaînes électriques indépendantes pour alimenter les serveurs n'est pas une garantie de ne pas avoir d'incident, même si cela diminue très fortement le risque => Coupure chez Online malgré le niveau de redondance annoncé...

A priori, ça n'est valable que pour OVH-Strasbourg.

Sinon, OVH a déjà montré plusieurs fois des gros SPOF dans leur chaine électrique : principalement, j'avais vu des onduleurs montés en SPOF, qui ne se redondent pas les 1 les autres. 1 seul onduleur défaillant peut apparemment provoquer des milliers de serveurs HS.
Je ne sais pas s'ils ont amélioré ça dans les salles plus récentes.

Octave vient de poster les détails sur la partie panne des équipements optiques de Roubaix
http://travaux.ovh.net/?do=details&id=28244

Leon.

Chicken · « **Réponse #81 le:** 11 novembre 2017 à 10:21:27 »

Ayant travaillé dans la maintenance électrique en milieu médicale et sidérurgique, je trouve assez abérant les délais de réalimentation, ce qui me laisse supposer comme questions : es ce que le personnel d'astreinte connait et est formé à des manoeuvres d'urgences de gestion de l'alimentation ?

On se voit mal, dans un hôpital, dire à un patient la bidoche ouvert "attends crève pas de suite, on a plus de jus pour ton respirateur". Ok je prends un exemple extrème et ces deux secteurs possèdent des équipes dédiés et formés. C'est là qu'il faut peut être travailler pour améliorer la fiabilité électrique, car on est tous tributaire de la panne matériel, même avec une maintenance préventive très sévère.

Leon · « **Réponse #82 le:** 11 novembre 2017 à 10:51:22 »

Citation de: Chicken le 11 novembre 2017 à 10:21:27

Ayant travaillé dans la maintenance électrique en milieu médicale et sidérurgique, je trouve assez abérant les délais de réalimentation, ce qui me laisse supposer comme questions : es ce que le personnel d'astreinte connait et est formé à des manoeuvres d'urgences de gestion de l'alimentation ?

On se voit mal, dans un hôpital, dire à un patient la bidoche ouvert "attends crève pas de suite, on a plus de jus pour ton respirateur". Ok je prends un exemple extrème et ces deux secteurs possèdent des équipes dédiés et formés. C'est là qu'il faut peut être travailler pour améliorer la fiabilité électrique, car on est tous tributaire de la panne matériel, même avec une maintenance préventive très sévère.

Attention, les équipements à secourir entre un hopital et un datacenter, ça n'est pas du tout la même puissance électrique.
Dans un hopital, c'est plus facile de faire des onduleurs qui tiennent longtemps (1/2h?).
Dans un datacenter, on parle facilement de plusieurs MW.

Bref, tout est une histoire de compromis.

Leon.

vivien · « **Réponse #83 le:** 11 novembre 2017 à 10:58:12 »

Et chez OVH, l’automate en cause gérait du 20 000 volts. Ce n'est pas n’importe qui qui va intervenir sur des circuits avec cette tension.

Dans un hôpital, avec du 400v, beaucoup plus de personnes peuvent intervenir sans formation poussée.