Auteur Sujet: Panne électrique majeure chez OVH (sites inacessibles)  (Lu 57225 fois)

0 Membres et 1 Invité sur ce sujet

octal

  • Invité
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #96 le: 12 novembre 2017 à 14:04:08 »
Gouverner c'est prévoir  8)
Cela semble ne pas être le cas  :-\

ginie

  • Expert
  • *
  • Messages: 660
    • Twitter @ginieb
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #97 le: 12 novembre 2017 à 19:34:18 »
Ouverture de la liaison aérienne Roubaix-Strasbourg par OVH !
https://twitter.com/olesovhcom/status/929654854267625472

 ;D
La société a ouvert son porte-feuille pour le coup.
Le coût de 2 avions est ridicule par rapport à celui de la panne.

mattmatt73

  • Expert.
  • Abonné Bbox fibre
  • *
  • Messages: 7 340
  • vancia (69)
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #98 le: 12 novembre 2017 à 20:28:03 »
8 minutes ça me semble effectivement très court. Je m'étais fait la même réflexion : c'est trop court pour un rattrapage par un humain.
Surtout qu'on ne sait pas si c'est 8 minutes garanties, y compris batteries en fin de vie, ou alors si c'est 8 minutes "optimistes".

Leon.

8 min ça doit être le résultat d'une réflexion du genre "si on a pas basculé en 8 min c'est qu'il y a grosse couil... qui va prendre bien plus longtemps"

ldrevon

  • AS43142 Officiel Adeli
  • Expert
  • *
  • Messages: 642
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #99 le: 14 novembre 2017 à 01:04:05 »
Bon on ne va pas dire qu'on s'est bien marré mais presque :), le seul problème c'est nos clients qui ont une partie de leur infra chez OVH qui nous ont appelé !!!!

Leon

  • Client SFR sur réseau Numericable
  • Modérateur
  • *
  • Messages: 5 983
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #100 le: 14 novembre 2017 à 06:44:26 »
Attention Lionel, sinon on ressort l'incident électrique majeur que tu as vécu il y a quelques années avec la perte de tes 2 onduleurs censés être redondants.

Leon.

ldrevon

  • AS43142 Officiel Adeli
  • Expert
  • *
  • Messages: 642
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #101 le: 14 novembre 2017 à 09:10:00 »
Mais je ne crains pas la discussion :)
Si vous voulez en parler, je vais vous dire le fond de ma pensée (en ces quelques lignes...) après ces quelques années de gestion d'un DC.

1: La maintenance : ça craint, tous nos incidents (impactant la production ou pas) trouvent leur source dans la maintenance (incompétence/incompréhension)  ou le mensonge (par omission bien entendu) des vendeurs/sous-traitants!

2: Les tests : ils servent.... Je sais c'est dur de l'entendre, mais sans test on ne peut pas être sur que l'infra tient. Les effets de bord étant généralement sous-estimés, les tests permettent de vérifier ce qui peut advenir lors de vrai panne. Soit l'équipe est prête, soit tu pleures.

3: Pour relativiser notre "petit" incident de moins d'une seconde ( 1 seconde sans elect = 1mn sans service si tes serveurs/switchs sont performants..)
Je parle de performance comme étant dans ce cas : le retour de service après coupure électrique en moins de une minute. Si 1 switch, 1  routeur ou  1 serveur met 30m pour reprendre son service il y a une conséquence de panne électrique qui est très impactant. Certes cela est très rare mais cela existe.

4: Le "0" panne n'existe pas car l'humain existe, je sais c'est moche mais c'est la vie :(

5: Il faut vivre (donc vendre) un produit ou il existe des concurrents qui utilisent aussi le mensonge (par omission bien entendu).

6: Dans le cas de cette panne d'OVH (ce n'est pas la première et ce ne sera pas la dernière car financièrement l'équation est mauvaise), que garantisse-t-il ? du 99.9% ou moins ?
Sur cette année il serait sur du Tier 2(!)  (mais pas que cette année) https://www.ovh.com/fr/serveurs_dedies/comprendre-t3-t4.xml et ce n'est pas par ce que tu cries haut et fort que tu es le plus fort que tu l'es! Les chiffres sont là, ils parlent d'eux même. Le jour ou on pourra tuer tous les escrocs qui font "Prendre des vessies pour des lanternes" le monde ira mieux (mais on n'a pas le droit :( )

Donc il faut par conception définir ce qui peut et doit être "secouru" par un autre biais que les dépendances d'un constructeur, d'un mainteneur, ou d'un intervenant.
En résumé si quelqu'un fait une connerie, il ne faut pas que ce soit impactant, il faut rendre les services indépendant les uns des autres et si possible prévoir des doubles commandes partout ou cela est possible... et superviser tout le système tout le temps.

Cela demande un gros travail que peu d'intégrateur réalisent par soucis d'économie, donc si tu payes pas cher, tu en as pour ton prix et ce n'est pas que le matériel qui coute!




« Modifié: 14 novembre 2017 à 09:45:04 par ldrevon »

vivien

  • Administrateur
  • *
  • Messages: 47 170
    • Twitter LaFibre.info
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #102 le: 14 novembre 2017 à 09:29:06 »
Une grosse partie des datacenter qui ont plus de 10ans d’exploitation ont eu des coupures sur les deux voies et/ou problèmes de climatisation.

Dans le cas d'OVH, cela a eu des impacts assez importants, bien au-delà des sites hébergés chez OVH, car les sites ont de plus en plus d'éléments hébergés en externe et certains étaient chez OVH.
Le jour où Google aura une panne globale, on verra bien qu'ils hébergent de nombreuses parties de sites (scripts, polices de caractère, publicité, bouton Google+,...)

Exemple : Pendant la panne OVH, impossible de faire un test de débit nPerf, quel que soit le serveur, et même les nPerf hébergés par des entreprises hors du site https://www.nperf.com/fr/

Voici les stats du serveur de nPerf de Massy: on voit la perte total de trafic le 9 novembre


Inversement, on voit un pic sur SpeedTest en mode http port 80, j'imagine que c'est Speedtest-cli démarré depuis des serveurs Linux ou autre hypothèse OVH est utilisé par SpeedTest pour faire des valider que le port 8080 ce qui a entraîné un fall-back sur le port 80 :

ldrevon

  • AS43142 Officiel Adeli
  • Expert
  • *
  • Messages: 642
dé-googlelisons internet
« Réponse #103 le: 14 novembre 2017 à 09:49:18 »
Pour répondre à Vivien,
sur énormèment de site, les liens pointent vers des serveurs hébergés par google et je pense que cela représente au moins 90% des sites web.
Il faudrait faire des stats là-dessus, car la prochaine grosse panne sera celle de google.

Leon

  • Client SFR sur réseau Numericable
  • Modérateur
  • *
  • Messages: 5 983
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #104 le: 14 novembre 2017 à 18:30:07 »
3: Pour relativiser notre "petit" incident de moins d'une seconde ( 1 seconde sans elect = 1mn sans service si tes serveurs/switchs sont performants..)
Je parle de performance comme étant dans ce cas : le retour de service après coupure électrique en moins de une minute. Si 1 switch, 1  routeur ou  1 serveur met 30m pour reprendre son service il y a une conséquence de panne électrique qui est très impactant. Certes cela est très rare mais cela existe.
Je ne connais pas beaucoup de serveurs qui redémarrent en 1 minute. Sans compter les problèmes de disque dur et de corruption de RAID en cas de coupure franche.

Citer
5: Il faut vivre (donc vendre) un produit ou il existe des concurrents qui utilisent aussi le mensonge (par omission bien entendu).
Pour moi, tu fais partie des opérateurs de datacenter qui mentent. Notamment avec ton Tier-4 (by Lionel Drevon)
D'ailleurs, si tu pouvais nous expliquer ton délire, cette "certification by Adeli", stp. Perso, je n'ai toujours pas compris si c'était du second degré pour se moquer de l'uptime institute ou autre chose.

Citer
6: Dans le cas de cette panne d'OVH (ce n'est pas la première et ce ne sera pas la dernière car financièrement l'équation est mauvaise), que garantisse-t-il ? du 99.9% ou moins ?
Sur cette année il serait sur du Tier 2(!)  (mais pas que cette année) https://www.ovh.com/fr/serveurs_dedies/comprendre-t3-t4.xml et ce n'est pas par ce que tu cries haut et fort que tu es le plus fort que tu l'es! Les chiffres sont là, ils parlent d'eux même. Le jour ou on pourra tuer tous les escrocs qui font "Prendre des vessies pour des lanternes" le monde ira mieux (mais on n'a pas le droit :( )
J'ai du mal à comprendre comment un opérateur officiel de datacenter (toi) te permet de traiter ouvertement OVH d'escroc. C'est facilement attaquable pour diffamation, non? Nous sommes sur un forum "peu fréquenté", donc OVH ne t'attaqueras pas, mais quand même, ça n'est pas une raison pour manquer de respect, gratuitement, sans explication, à tes concurrents.

Citer
Donc il faut par conception définir ce qui peut et doit être "secouru" par un autre biais que les dépendances d'un constructeur, d'un mainteneur, ou d'un intervenant.
En résumé si quelqu'un fait une connerie, il ne faut pas que ce soit impactant, il faut rendre les services indépendant les uns des autres et si possible prévoir des doubles commandes partout ou cela est possible... et superviser tout le système tout le temps.
Et donc là dessus, tu es meilleur que les autres? Si oui, pourquoi? N'hésites pas à nous expliquer.
C'est pas toi qui a eu de gros problèmes de routage pendant plusieurs jours en IPv6? Je sais que ça n'a rien à voir, mais ça fait partie de la qualité de service globale.

Leon.

miky01

  • Expert. Réseau RESO-LIAin (01)
  • Abonné K-Net
  • *
  • Messages: 3 829
  • Farges (01)
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #105 le: 14 novembre 2017 à 19:06:42 »
Je ne connais pas beaucoup de serveurs qui redémarrent en 1 minute. Sans compter les problèmes de disque dur et de corruption de RAID en cas de coupure franche.

En fait moi non plus, meme un laptop ne redémarre pas eu une minute...

Alors un serveur UNIX qui crash c'est 15 minutes de reboot, et si dessus tu as une DB Oracle c'est minimum 1 heures de recovery  ;)
Et pour les discs, une salle de 500 serveurs, c'est au minimum une 10ene de disc a remplacer apres un powerfail, souvent sans conséquences car c'est en RAID, mais les degats sont la, sur des machines qui tournes des années sans le moindre arret, ce genre de truc est fatal...

J'ai trouvé un server HP-UX avec 2100 jours de uptime sans reboot dans un DC, un record  :D

Optix

  • AS41114 - Expert OrneTHD
  • Abonné Orne THD
  • *
  • Messages: 4 663
  • WOOHOO !
    • OrneTHD
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #106 le: 14 novembre 2017 à 20:32:44 »
Nous sommes sur un forum "peu fréquenté", donc OVH ne t'attaqueras pas...
Je le croyais aussi... Jusqu'à mon audience en cour d'appel où on me fout un de mes posts lafibre.info sous le pif en me demandant de m'expliquer dessus.

Donc croyez-moi, il y a beaucoup plus de monde qu'on ne le croit ici ;)

ldrevon

  • AS43142 Officiel Adeli
  • Expert
  • *
  • Messages: 642
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #107 le: 15 novembre 2017 à 14:23:28 »
En fait moi non plus, meme un laptop ne redémarre pas eu une minute...
J'ai trouvé un server HP-UX avec 2100 jours de uptime sans reboot dans un DC, un record  :D
On en a qui reboot en moins d'une minute et il est vrai qu'on en a d'autre qui reboot en 5mn!
Je vous ferai une  vidéo. (promis)
Le raid au reboot on s'en fout (à part si un disque est mort  et c'est un autre sujet), ton serveur est censé redémarrer en mode bancal sinon c'est un mauvais choix de carte/serveur.
Le seul "point" c'est le système de fichier donc exit le ext2/3/4 qui te demande de valider le check...
Si ton serveur ne supporte pas le reboot hard c'est qu'il est trop vieux  et que si cela impact ta prod tu vires le DSI (ou tu te mets des baffes si tu n'as personne à "violenter" sous la main)
A chaque pbm une solution