Auteur Sujet: OVH - incident majeur du au watercooling  (Lu 22575 fois)

0 Membres et 1 Invité sur ce sujet

Leon

  • Client SFR sur réseau Numericable
  • Modérateur
  • *
  • Messages: 5 981
OVH - incident majeur du au watercooling
« Réponse #48 le: 07 juillet 2017 à 21:21:24 »
Donc on confirme qu'OVH est transparent et nous montre son amateurisme au grand jour.
Et on confirme bien que c'est à cause du watercooling! YES!

Franchement, vous trouvez ça étonnant, une fuite sur des tuyaux en plastique collés? Moi, non...

Je ne comprends toujours pas pourquoi OVH n'utilise pas de composant industriels pour les tuyaux et raccords du watercooling. Vu le prix d'une baie, le chiffre d'affaire qu'elle génère, c'est incompréhensible de vouloir faire des économies de quelques dizaines d'euros par baie, et compromettre autant la qualité pour si peu.

Au moins, ça aura fait un test de PRA forcé!

Et sinon, juste pour info, il me semble bien que ce genre d'équipement (baie EMC) est conçue pour être déplacée "à chaud" : on déplace les éléments constituants un par un. Donc si OVH a retardé cette relocalisation dans une salle sécurisé, c'est bien de leur faute.

Leon.

Hugues

  • AS2027 MilkyWan
  • Modérateur
  • *
  • Messages: 12 439
  • Lyon (69) / St-Bernard (01)
    • Twitter
OVH - incident majeur du au watercooling
« Réponse #49 le: 08 juillet 2017 à 10:11:49 »
Donc on confirme qu'OVH est transparent et nous montre son amateurisme au grand jour.
Et on confirme bien que c'est à cause du watercooling! YES!

On me souffle qu'il y'a eu moins de 10 incidents liés à des fuites d'eau depuis la mise en prod du Watercooling. Moi je trouve ça honorable, c'est couillu de généraliser ça :)

Je ne comprends toujours pas pourquoi OVH n'utilise pas de composant industriels pour les tuyaux et raccords du watercooling.

Les photos que tu as vues, c'est l'ancienne version du watercooling, depuis de l'eau (héhé) a coulé sous les ponts ;)

octal

  • Invité
OVH - incident majeur du au watercooling
« Réponse #50 le: 08 juillet 2017 à 22:20:46 »
Vu la quantité de spécialistes l'ont croit rêver par tant d'erreurs  :o
OVH raconte l’enchaînement des événements qui ont conduit à la panne d’environ 24 heures de son service d’hébergement mutualisé. Un concours de circonstances doublé d’erreurs d’exploitation.

Une nouvelle illustration de la loi de Murphy, aussi appelée loi de l’emmerdement maximum ? C’est ainsi qu’OVH présente la panne qui a touché son datacenter parisien P19 et provoqué une interruption de services allant au-delà de 24 heures pour certains des 50 000 sites concernés par l’incident. Tout est parti, le 29 juin à 18h48, d’une fuite de liquide de refroidissement sur le système de ‘watercooling’ d’OVH, une des marques de fabrique de l’hébergeur. Du liquide qui parvient à s’immiscer dans une des deux baies EMC présentes sur P19, baie qui n’était pas refroidie par ce procédé mais se trouvait à « proximité immédiate »
Une proximité qui constitue une erreur évidente, ce que reconnaît d’ailleurs l’hébergeur roubaisien dans sa longue analyse post-mortem de l’incident, posté sur son site : « nous aurions dû installer [les baies EMC] dans des salles isolées, pour les protéger de ce type d’incident ». Et d’expliquer que le choix de cet emplacement résulte d’un malheureux concours de circonstances : les salles réservées aux équipements ne recevant pas le watercooling étaient en réfection au moment de l’achat des baies, en 2012. Manque de chance encore, les équipements EMC étaient tous voués à être remplacés par une nouvelle architecture maison, seules deux baies VNX 5400 restant en production chez OVH au moment de la panne, toutes deux hébergées sur le datacenter P19.
11 minutes qui changent tout

A ce concours de circonstances, s’ajoute un facteur aggravant : la mise à jour en cours d’un système d’alertes, basés sur des sondes, censé prévenir les techniciens par des messages audio lors d’événements anormaux (comme une fuite du liquide de refroidissement). « Dans le cadre de l’implantation à l’international de nouveaux datacenters, ce système de monitoring audio était en cours de mise à jour, afin que la voix de synthèse puisse diffuser les messages d’alerte dans plusieurs langues. En raison d’une malfaçon dans cet upgrade, réalisé le même jour, l’alerte audio n’a pas fonctionné correctement », écrit OVH. Retardant d’autant la prise en charge de l’incident.

Conséquence : le premier technicien n’est entré dans la salle touchée par la fuite que 11 minutes après son démarrage. « Ce retard a très certainement accentué l’impact de l’incident », reconnaît OVH. C’est ce qui explique peut être pourquoi la baie EMC aspergée est si gravement touchée. Malgré leurs efforts, les techniciens ne parviendront en effet jamais à la redémarrer. Tout comme seront inefficaces les efforts visant à remonter les disques de la baie touchée dans un second châssis, amené par la route depuis Roubaix..

Lire la suite c'est a mourir de rire
Source





Leon

  • Client SFR sur réseau Numericable
  • Modérateur
  • *
  • Messages: 5 981
OVH - incident majeur du au watercooling
« Réponse #51 le: 14 juillet 2017 à 08:17:01 »
On me souffle qu'il y'a eu moins de 10 incidents liés à des fuites d'eau depuis la mise en prod du Watercooling. Moi je trouve ça honorable, c'est couillu de généraliser ça :)
Tu es vraiment certain de tes sources pour ces 10 incidents? Tu penses vraiment que l'on peut connaitre de manière certaine le nombre d'incidents liés au watercooling chez OVH? Il est fort possible que même en interne chez OVH, cette information ne soit pas disponible de manière simple.

Citer
Les photos que tu as vues, c'est l'ancienne version du watercooling, depuis de l'eau (héhé) a coulé sous les ponts ;)
Ah, tu m'as l'air bien informé. Pourtant, les photos récentes de la com de chez OVH (Gravelines et autres) ne montrent pas autre chose : tuyaux en plastique PVC collés, absence de raccord stop industriels, etc...

Mais si tu as mieux, n'hésites pas à partager. Pareil, si tu as des infos sur les sécurités, les procédure de validation des installations que procèderait OVH sur son watercooling, n'hésites pas à nous faire partager, ça m'intéresse beaucoup.

Leon.

miky01

  • Expert. Réseau RESO-LIAin (01)
  • Abonné K-Net
  • *
  • Messages: 3 829
  • Farges (01)
OVH - incident majeur du au watercooling
« Réponse #52 le: 14 juillet 2017 à 09:23:43 »
Il est fort possible que même en interne chez OVH, cette information ne soit pas disponible de manière simple

A moins que le plombier de OVH fréquente ce forum ? Il pourra nous dire combien de kilos de colle il a passé en une année  :)
Ou faut envoyer (l'ex) 'inspecteur Colombo...

J'ai bien aimé la phrase "C'est des secrets industriels", au moins c'est pas aérospatiale qui va leur voler  :)

Hugues

  • AS2027 MilkyWan
  • Modérateur
  • *
  • Messages: 12 439
  • Lyon (69) / St-Bernard (01)
    • Twitter
OVH - incident majeur du au watercooling
« Réponse #53 le: 14 juillet 2017 à 10:23:00 »
Tu es vraiment certain de tes sources pour ces 10 incidents? Tu penses vraiment que l'on peut connaitre de manière certaine le nombre d'incidents liés au watercooling chez OVH?
Aucune idée, la personne qui m'en a parlé n'avait pas d'intéret à me mentir.

Après je sais qu'au support, il est interdit de dire au client que son serveur est HS à cause du watercooling, il faut parler de "panne materielle"

octal

  • Invité
OVH - incident majeur du au watercooling
« Réponse #54 le: 14 juillet 2017 à 11:15:50 »
Je pense que le travail n'a pas été fait proprement ( comme c'est souvent le cas dans bien des domaines loin des règles de l'art )
J'ai vu cela dans l'aérospatiale ( domaine qui pourrait être une référence loin sans faux  ) des copeaux d'acier qui ont passer tout les filtres de sécurité ( 20 ) et qui ont été retrouver sous la coiffe du lancer Ariane a H24 du lancement alors vos spécialistes  vous  les garder > > > j'ai d'autres histoires tout aussi incroyable , je parle de la france ailleurs cela sera un autre sujet  ;D
Quand a installer du PVC sur une installation pareil cela en dit long sur les pots de vins et  enveloppes qui ont changer de mains  :o
Car oublier le rôle de l'eau dans des circuits électronique laisse perplexe sur les études et les experts qui ont été mandatés
De plus cela manque cruellement de transparence , de sérieux , et surtout de circuit de récupération des eaux ainsi que des pompes a air en cas d’arrêt de l’énergie Électrique  cela arrive parfois  ;D

Hugues

  • AS2027 MilkyWan
  • Modérateur
  • *
  • Messages: 12 439
  • Lyon (69) / St-Bernard (01)
    • Twitter
OVH - incident majeur du au watercooling
« Réponse #55 le: 14 juillet 2017 à 11:26:54 »
Heu, t'en sais rien :)

miky01

  • Expert. Réseau RESO-LIAin (01)
  • Abonné K-Net
  • *
  • Messages: 3 829
  • Farges (01)
OVH - incident majeur du au watercooling
« Réponse #56 le: 14 juillet 2017 à 11:49:42 »
De l'eau dans l'électronique c'est pas incompatible, je l'ai vu sur des anciens mainframe IBM ou la flotte chaude servait a chauffer les bureaux, quant ils ont été démontés il a fallu revoir le chauffage du batiment  :D

Plus tard au CERN pour refroidir des éléments utilisés pour le LHC, seulement ca rien a voir avec les photos montrées, c'est des tubes gainés de tresse inox, et des racords professionels.

Enfin Leroimerlin doit faire des bonne affaires dans la région de OVH  :)

Leon

  • Client SFR sur réseau Numericable
  • Modérateur
  • *
  • Messages: 5 981
OVH - incident majeur du au watercooling
« Réponse #57 le: 14 juillet 2017 à 12:29:09 »
Plus tard au CERN pour refroidir des éléments utilisés pour le LHC, seulement ca rien a voir avec les photos montrées, c'est des tubes gainés de tresse inox, et des racords professionels.
Certains équipements d'électronique de puissance et certains moteurs électriques sont refroidis par eau également. C'est utilisé dans l'industrie (machines électriques, certains robots), et c'est aussi utilisé pour les véhicules électriques et hybrides.
Et pour tous les équipements électriques industriels refroidis à l'eau, je confirme que ça ne ressemble pas à du bricolage avec des tuyaux en PVC. Tout ce qui est industriel, il faut que ça tourne longtemps, et les investissements sont en général amortis sur de nombreuses années, donc la fiabilité prime sur les économies de bout de chandelle. Ca devrait être pareil dans tous les datacenters, et heureusement, c'est en général le cas (sauf chez OVH).

Leon.

Hugues

  • AS2027 MilkyWan
  • Modérateur
  • *
  • Messages: 12 439
  • Lyon (69) / St-Bernard (01)
    • Twitter
OVH - incident majeur du au watercooling
« Réponse #58 le: 14 juillet 2017 à 16:07:42 »
Après il faut voir un truc :

OVH peut tolérer de la panne, en informatique on a longtemps pensé "on n'en fait jamais trop". Un peu de bricolage malin qui fait chuter les couts, c'est loin d'être idiot.

vivien

  • Administrateur
  • *
  • Messages: 47 168
    • Twitter LaFibre.info
OVH - incident majeur du au watercooling
« Réponse #59 le: 14 juillet 2017 à 16:23:51 »
Quand a installer du PVC sur une installation pareil cela en dit long sur les pots de vins et  enveloppes qui ont changer de mains  :o
Je ne pense pas. Met au moins le conditionnel...

Je pense  qu'il y a largement plus de 10 incidents lié au wattercooling :
Article du JDN, écrit avec le témoignage de plusieurs anciens salariés d'OVH.

En effet, les serveurs sont tous refroidis à l'eau, qui passe dans des tuyaux et des blocs qui se fixent directement sur les composants. Fabriqués en Pologne, eux aussi. Que se passe-t-il en cas de fuite ? La théorie c'est qu'un contacteur présent au pied de chaque baie de serveur permet de détecter les fuites. Dans la pratique, si un serveur "fuit" tout en haut de la baie, il peut en mouiller d'autres avant que l'alarme ne se mette en marche. Si bien que les ateliers de réparation de serveurs d'OVH utilisent un outil rarement vu ailleurs : le compresseur. Celui-ci permet de souffler de l'air et de "vider" les serveurs de leur eau.

Ces ateliers de réparation sont l'un des éléments clés du succès d'OVH : en effet, l'hébergeur utilise du matériel d'entrée de gamme qui subit plus de défaillances que du matériel plus cher. Impossible d'avoir un chiffre sur le taux de défaillance chez OVH mais un hébergeur concurrent affirme avoir eu jusqu'à 10% de pannes par an avec du matériel similaire contre 2 à 3% avec du matériel haut de gamme. Mais OVH a mis en place une organisation militaire en cas de panne : une alerte est immédiatement envoyée à une flopée de techniciens présents 24/24 7/7 qui se précipitent sur la machine, changent la pièce défectueuse (la consigne n'est pas de comprendre l'origine du problème, mais uniquement de changer ce qui ne fonctionne pas, jusqu'au redémarrage du serveur) et remettent la machine en marche. En 30mn, tout est reparti. Idem en cas de serveur "mouillé". Un coup de compresseur et ça repart. A la différence près qu'en cas de fuite d'eau, les techniciens ont une interdiction formelle d'en parler. Il est vrai que "votre serveur a pris l'eau" pourrait effrayer des clients. Au final, OVH affiche des taux de disponibilité similaires voire meilleurs que certains de ses concurrents utilisant du matériel professionnel.