Auteur Sujet: Panne électrique majeure chez OVH (sites inacessibles)  (Lu 56794 fois)

0 Membres et 1 Invité sur ce sujet

buchanan

  • Expert.
  • Abonné Free fibre
  • *
  • Messages: 345
  • Chaville (92) @buchanan_
    • @buchanan_
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #60 le: 10 novembre 2017 à 00:46:38 »
On apprend finalement que le site ne disposait que d'une seule arrivée HTA 
https://twitter.com/olesovhcom/status/928766504732119040

e-TE

  • Abonné Free fibre
  • *
  • Messages: 1 145
  • Déville-les-Rouen (76)
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #61 le: 10 novembre 2017 à 01:06:16 »
bon bah on a voulu éviter 2-3millions pour mettre un lien de secours sur des installations que l'on voulait démonter une fois fini d'installer les installations de remplacement... on a serré les fesses mais ca n'a pas suffit... désolé...

Leon

  • Client SFR sur réseau Numericable
  • Modérateur
  • *
  • Messages: 5 971
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #62 le: 10 novembre 2017 à 06:18:54 »
Intéressant, encore une fois. C'est appréciable autant de transparence. Mais encore une fois, comme le dit Vivien, nous ne saurons jamais tous les détails de ces incidents.

Ici, il parle de l'automate de basculement qui n'a pas fonctionné. Moi pas comprendre. Il n'y a qu'un seul et unique automate non redondant?
Est-ce qu'il faut aussi comprendre qu'il n'y a qu'un seul et unique réseau électrique non redondé à l'intérieur du datacenter de Strasbourg? Nous n'en savons rien, le billet d'Octave ne nous permet pas de le dire.

Octave dit que les containers maritimes sont un problème, mais on ne comprends pas pourquoi, il ne donne pas les détails. C'est forcèment lié à l'incident s'il dit ça, mais nous ne pouvons pas comprendre le pourquoi.

Leon.

vivien

  • Administrateur
  • *
  • Messages: 47 076
    • Twitter LaFibre.info
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #63 le: 10 novembre 2017 à 07:11:06 »
Saluons le message d'Octave, qui donne une partie des piéces du puzzle pour comprendre comment l'impossible est arrivé.

Je le reprend ici pour mémoire :

Bonjour,
Ce matin à 7h23, nous avons eu une panne majeure sur notre site de Strasbourg (SBG) : une coupure électrique qui a mis dans le noir nos 3 datacentres SBG1, SBG2 et SBG4 durant 3h30. Le pire scénario qui puisse nous arriver.

Le site de SBG est alimenté par une ligne électrique de 20KVA composée de 2 câbles qui délivrent chacun 10MVA. Les 2 câbles fonctionnent ensemble, et sont connectés à la même source et sur le même disjoncteur chez ELD (Strasbourg Électricité Réseaux). Ce matin, l’un des 2 câbles a été endommagé et le disjoncteur a coupé l’alimentation des datacentres.

Le site SBG est prévu pour fonctionner, sans limite de temps, sur les groupes électrogènes. Pour SBG1 et SBG4, nous avons mis en place, un premier système de 2 groupes électrogènes de 2MVA chacun, configurés en N+1 et en 20KV. Pour SBG2, nous avons mis en place 3 groupes en N+1 de 1.4MVA chacun. En cas de coupure de la source externe, les cellules haute tension sont reconfigurées automatiquement par un système de bascule motorisé. En moins de 30 secondes, les datacentres SBG1, SBG2 et SBG4 sont ré-alimentés en 20KV. Pour permettre toutes ces bascules sans couper l’alimentation électrique des serveurs, nous disposons d’onduleurs (UPS) sachant fonctionner sans aucune alimentation durant 8 minutes.

Ce matin, le système de basculement motorisé n’a pas fonctionné. L’ordre de démarrage des groupes n’a pas été donné par l’automate. Il s’agit d’un automate NSM (Normal Secours Motorisé), fournit par l’équipementier des cellules haute-tension 20KV. Nous sommes en contact avec lui, afin de comprendre l’origine de ce dysfonctionnement. C’est toutefois un défaut qui aurait dû être détecté lors des tests périodiques de simulation de défaut sur la source externe. Le dernier test de reprise de SBG sur les groupes date de la fin du mois mai 2017. Durant ce dernier test, nous avons alimenté SBG uniquement à partir des groupes électrogènes durant 8H sans aucun souci et chaque mois nous testons les groupes à vide. Et malgré tout, l’ensemble de ce dispositif n’a pas suffi aujourd’hui pour éviter cette panne.

Vers 10h, nous avons réussi à basculer les cellules manuellement et nous avons recommencé à alimenter le datacentre à partir des groupes électrogènes. Nous avons demandé à ELD de bien vouloir déconnecter le câble défectueux des cellules haute tension et remettre le disjoncteur en marche avec 1 seul des 2 câbles, et donc limité à 10MVA. La manipulation a été effectuée par ELD et le site a été ré-alimenté vers 10h30. Les routeurs de SBG ont été joignables à partir de 10h58.

Depuis, nous travaillons, sur la remise en route des services. Alimenter le site en énergie permet de faire redémarrer les serveurs, mais il reste à remettre en marche les services qui tournent sur les serveurs. C’est pourquoi chaque service revient progressivement depuis 10h58. Notre système de monitoring nous permet de connaitre la liste de serveurs qui ont démarré avec succès et ceux qui ont encore un problème. Nous intervenons sur chacun de ces serveurs pour identifier et résoudre le problème qui l’empêche de redémarrer.

A 7h50, nous avons mis en place une cellule de crise à RBX, où nous avons centralisé les informations et les actions de l’ensemble des équipes. Un camion en partance de RBX a été chargé de pièces de rechange pour SBG. Il est arrivé à destination vers 17h30. Nos équipes locales ont été renforcées par des équipes du datacentre de LIM en Allemagne et de RBX, ils sont tous mobilisés sur place depuis 16H00. Actuellement, plus de 50 techniciens travaillent à SBG pour remettre tous les services en route. Nous préparons les travaux de cette nuit et, si cela était nécessaire, de demain matin.

Prenons du recul. Pour éviter un scénario catastrophe de ce type, durant ces 18 dernières années, OVH a développé des architectures électriques capables de résister à toutes sortes d’incidents électriques. Chaque test, chaque petit défaut, chaque nouvelle idée a enrichi notre expérience, ce qui nous permet de bâtir aujourd’hui des datacentres fiables.

Alors pourquoi cette panne ? Pourquoi SBG n’a pas résisté à une simple coupure électrique d’ELD ? Pourquoi toute l’intelligence que nous avons développée chez OVH, n’a pas permis d’éviter cette panne ?

La réponse rapide : le réseau électrique de SBG a hérité des imperfections de design liées à la faible ambition initialement prévue pour le site.

La réponse longue :
En 2011, nous avons planifié le déploiement de nouveaux datacentres en Europe. Pour tester l’appétence de chaque marché, avec de nouvelles villes et de nouveaux pays, nous avons imaginé une nouvelle technologie de déploiement de datacentres, basée sur les containers maritimes. Grâce à cette technologie, développée en interne, nous avons voulu avoir la souplesse de déployer un datacentre sans les contraintes de temps liées aux permis de construire. A l’origine, nous voulions avoir la possibilité de valider nos hypothèses avant d’investir durablement dans un site.

C’est comme ça que début 2012, nous avons lancé SBG avec un datacentre en containers maritimes : SBG1. Nous avons déployé 8 containers maritimes et SBG1 a été opérationnel en seulement 2 mois. Grâce à ce déploiement ultra rapide, en moins de 6 mois nous avons pu valider que SBG est effectivement un site stratégique pour OVH. Fin 2012, nous avons décidé de construire SBG2 et en 2016, nous avons lancé la construction de SBG3. Ces 2 constructions n’ont pas été faites en containers, mais ont été basées sur notre technologie de « Tour » : la construction de SBG2 a pris 9 mois et SBG3 sera mis en production dans 1 mois. Pour pallier aux problèmes de place début 2013, nous avons construit très rapidement SBG4, l’extension basée encore sur les fameux containers maritimes.

Le problème est qu’en déployant SBG1 avec la technologie basée sur les containers maritimes, nous n’avons pas préparé le site au large scale. Nous avons fait 2 erreurs :
1) nous n’avons pas remis le site SBG aux normes internes qui prévoient 2 arrivées électriques indépendantes de 20KV, comme tous nos sites de DCs qui possèdent plusieurs doubles arrivées électriques. Il s’agit d’un investissement important d’environ 2 à 3 millions d’euros par arrivée électrique, mais nous estimons que cela fait partie de notre norme interne.
2) nous avons construit le réseau électrique de SBG2 en le posant sur le réseau électrique de SBG1, au lieu de les rendre indépendant l’un de l’autre, comme dans tous nos datacentres. Chez OVH, chaque numéro de datacentre veut dire que le réseau électrique est indépendant d’un autre datacentre. Partout sauf sur le site de SBG.

La technologie basée sur les containers maritimes n’a été utilisée que pour construire SBG1 et SBG4. En effet, nous avons réalisé que le datacentre en containers n’est pas adapté aux exigences de notre métier. Avec la vitesse de croissance de SBG, la taille minimale d’un site est forcèment de plusieurs datacentres, et donc d’une capacité totale de 200.000 serveurs. C’est pourquoi, aujourd’hui, pour déployer un nouveau datacenter, nous n’utilisons plus que 2 types de conceptions largement éprouvées et prévues pour le large scale avec de la fiabilité :
1) la construction de tours de 5 à 6 étages (RBX4, SBG2-3, BHS1-2), pour 40.000 serveurs.
2) l’achat des bâtiments (RBX1-3,5-7, P19, GRA1-2, LIM1, ERI1, WAW1, BHS3-7, VIH1, HIL1) pour 40.000 ou 80.000 serveurs.

Même si l’incident de ce matin a été causé par un automate tiers, nous ne pouvons nous dédouaner de la responsabilité de la panne. A cause du déploiement initial basé sur les containers maritimes, nous avons un historique à rattraper sur SBG pour atteindre le même niveau de normes que sur les autres sites d’OVH.

Cet après-midi, nous avons décidé du plan d’actions suivant :
1) la mise en place de la 2ème arrivée électrique, totalement séparée, de 20MVA ;
2) la séparation du réseau électrique de SBG2 vis-à-vis de SBG1/SBG4, ainsi que la séparation du futur SBG3 vis-à-vis de SBG2 et SBG1/SBG4;
3) la migration des clients de SBG1/SBG4 vers SBG3 ;
4) la fermeture de SBG1/SBG4 et la désinstallation des containers maritimes.

Il s’agit d’un plan d’investissement de 4-5 millions d’euros, que nous mettons en route dès demain, et qui, nous l’espérons, nous permettra de restaurer la confiance de nos clients envers SBG et plus largement OVH.

Les équipes sont toujours en train de travailler sur la remise en route des derniers clients impactés. Une fois l’incident clos, nous appliquerons les SLA prévus dans nos contrats.

Nous sommes profondèment désolés pour la panne générée et nous vous remercions des encouragements que vous nous témoignez durant cet incident.

Amicalement
Octave

oliviertoto92350

  • Expert
  • Abonné Orange Fibre
  • *
  • Messages: 1 595
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #64 le: 10 novembre 2017 à 09:45:08 »
Ce matin, le système de basculement motorisé n’a pas fonctionné. L’ordre de démarrage des groupes n’a pas été donné par l’automate. Il s’agit d’un automate NSM (Normal Secours Motorisé), fournit par l’équipementier des cellules haute-tension 20KV. Nous sommes en contact avec lui, afin de comprendre l’origine de ce dysfonctionnement. C’est toutefois un défaut qui aurait dû être détecté lors des tests périodiques de simulation de défaut sur la source externe. Le dernier test de reprise de SBG sur les groupes date de la fin du mois mai 2017. Durant ce dernier test, nous avons alimenté SBG uniquement à partir des groupes électrogènes durant 8H sans aucun souci et chaque mois nous testons les groupes à vide. Et malgré tout, l’ensemble de ce dispositif n’a pas suffi aujourd’hui pour éviter cette panne.

C'est donc l'automate NSM de l'ATS (Automatic Transfer Switches) qui est en cause.

Kaelhan

  • Abonné Orange Fibre
  • *
  • Messages: 466
  • Toulouse (31)
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #65 le: 10 novembre 2017 à 09:52:24 »
Quelques points m'interpellent dans ce compte-rendu et me surprennent suite aux choix faits dans la réalisation, évolution de DC et que je ne pensais pas voir possible :
Le site de SBG est alimenté par une ligne électrique de 20KVA composée de 2 câbles qui délivrent chacun 10MVA. Les 2 câbles fonctionnent ensemble, et sont connectés à la même source et sur le même disjoncteur chez ELD (Strasbourg Électricité Réseaux) : architecture électrique qui ressemble à du Tier II (il faudrait voir les schémas électriques pour s'en sassurer). Le Tier II implique une maintenance avec coupure....
En cas de coupure de la source externe, les cellules haute tension sont reconfigurées automatiquement par un système de bascule motorisé : cette partie peut-elle être testée lors des tests de maintenance ? Cela imposerait de couper l'alimentation pour être sûr que l'automate, peuvent-ils le faire avec leur architecture ?
Nous avons déployé 8 containers maritimes et SBG1 a été opérationnel en seulement 2 mois. Grâce à ce déploiement ultra rapide, en moins de 6 mois nous avons pu valider que SBG est effectivement un site stratégique pour OVH. : Le choix de containers pour des DCs fait sens du à la rapidité de mise en place, mais les choisir pour qu'ils soient "stratégiques" est un choix rare car la sécurisation électrique et climatique (je parle des groupes froids) d'un container est plus compliqué, le container a pour but un déploiement rapide et un choix de sécurisation faible avec des environnements qui peuvent être coupés et n'ont pas de besoin de redondance forte.

Edit : @Oliviertoto92350 : Non, l'ATS est en aval de ce mécanisme, il ne commande pas le démarrage des groupes mais la bascule d'une source à une autre.
C'est donc l' ATS (Automatic Transfer Switches) qui est en cause.

butler_fr

  • Client Bbox adsl
  • Modérateur
  • *
  • Messages: 3 605
  • FTTH orange
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #66 le: 10 novembre 2017 à 10:47:32 »
il n'y a que moi qui trouve que 8 minutes c'est très juste comme autonomie de batterie?

si le système automatique a le moindre problème ça ne laisse aucune marge de sécu pour agir manuellement...
limite le tech de garde à a peine le temps d'acquitté l'alarme de défaut que tout est déjà dans le noir...

Kaelhan

  • Abonné Orange Fibre
  • *
  • Messages: 466
  • Toulouse (31)
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #67 le: 10 novembre 2017 à 11:17:30 »
Bien vu, j'avais noté aussi mais je l'avais zappé lors de ma seconde lecture  ???.
Tout dépend du temps qu'ils donnent aux GE pour démarrer, si ces derniers démarrent en moins de trois min, les huit minutes sont cohérentes.
Il ne parle pas non plus des impacts sur les machines avec la montée rapide en température du site du à l'arrêt des clims.

miky01

  • Expert. Réseau RESO-LIAin (01)
  • Abonné K-Net
  • *
  • Messages: 3 829
  • Farges (01)
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #68 le: 10 novembre 2017 à 11:32:21 »
Oui 8 min c'est cohétants, sachant que les groupes sont préchauffés et stabilisés en qques minutes, et pour des puissances pareilles un plus long temps sur UPS coute une fortune en batteries, qui sont remplacée tous les 3-4 ans, et aussi la place que ca prend..

J'ai vu dans un hosting center plus petit, un temps de 30 minutes, ou les groupes ne sont pas démarrés que apres 10 minutes de coupures, ce qui suffit pour 90% des coupures reseau qui sont brèves.

Maintenant oui, ils donnent vraiment l'impression de "trop serrer les fesses" sur la fiabilité, il y a déja eu leur soucis d'inondation avec leurs raccords de flotte en plastique made in "Brico-jardin" , et maintenant avec leurs alims électrique pseudo redondante, des systèmes de commutations pas testés convenablement.

La tres haute fiabilité coute tres cher, et c'est manifestement pas le créneau de marché qu'ils ont choisit, mais faut le dire plus clairement aux clients.

vivien

  • Administrateur
  • *
  • Messages: 47 076
    • Twitter LaFibre.info
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #69 le: 10 novembre 2017 à 15:27:22 »
il n'y a que moi qui trouve que 8 minutes c'est très juste comme autonomie de batterie?

si le système automatique a le moindre problème ça ne laisse aucune marge de sécu pour agir manuellement...
limite le tech de garde à a peine le temps d'acquitté l'alarme de défaut que tout est déjà dans le noir...

Pour moi il n'y a pas le temps d'agir en manuel et je ne suis pas sur que d'avoir 20 min d'autonomie change qq chose.

Il faut du personnel formé sur site et si la bascule n'est pas réalisée automatiquement, cela signifie qu'il faut investiguer et comprendre ce qui n'a pas marché pour faire la bonne action. 20 minutes, c'est très court...

Chez OVH, les onduleurs sont tombés en panne de jus à 7h23 => Ils ont basculé manuellement l’alimentation à 10h00 selon octave.
Il fallait 3 h d'autonomie sur batterie pour ne pas avoir de coupure.

Il y aurais eu deux voies (Voie A et Voie B comme dans de nombreux datacenter), il n'y aurais pas eu de pb. Une voie aurait été HS, mais pas la seconde.
Là chez OVH il y a une seule chaîne d'alimentation, et donc un seul automate.

Un schéma avec une redonance :


Je remarque qu'il y a pas mal d'ATS qui sont a l'origine de coupure dans les datacenter...
=> Un ATS qui bloque des dizaines de milliers de passagers de Delta Airlines dans le monde entier, pendant 4 jours.
Il y a déjà eu des ATS bloqué (contacts soudés) qui ont mit une pagaille pas possible...

butler_fr

  • Client Bbox adsl
  • Modérateur
  • *
  • Messages: 3 605
  • FTTH orange
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #70 le: 10 novembre 2017 à 16:05:33 »
les 20minutes d'autonomie peuvent éventuellement permettre de palier à une erreur humaine par exemple.
après je ne connais pas suffisamment bien les différentes procédures liées au groupe électrogène / chaines électriques pour dire si ça pourrait permettre de solutionner certains problèmes simples (genre alimentation en carburant bloquée / bascule automatique qui ne s'est pas déclenchée...)
c'est sur que ça reste très court

pour l'archi en 2N je connais assez (2 groupes sur 2 chaines d'alimentation séparée et deux alimentation edf distinctes)
si un groupe fail de mémoire on a la possibilité de basculer la chaine d'alim sur l'autre groupe pour éviter de couper une voie (vive l'autonomie des batteries :P ).
« Modifié: 05 novembre 2019 à 18:32:22 par butler_fr »

Leon

  • Client SFR sur réseau Numericable
  • Modérateur
  • *
  • Messages: 5 971
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #71 le: 10 novembre 2017 à 18:01:01 »
8 minutes ça me semble effectivement très court. Je m'étais fait la même réflexion : c'est trop court pour un rattrapage par un humain.
Surtout qu'on ne sait pas si c'est 8 minutes garanties, y compris batteries en fin de vie, ou alors si c'est 8 minutes "optimistes".

Leon.