Auteur Sujet: Panne électrique majeure chez OVH (sites inacessibles)  (Lu 56810 fois)

0 Membres et 1 Invité sur ce sujet

gogol123

  • Abonné Bbox fibre
  • *
  • Messages: 44
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #144 le: 27 novembre 2017 à 11:20:10 »
Que les experts savent que OVH est middle/low cost est un fait

Mais la plupart des clients doivent croire que c'est le prix du marché pour une parfaite fiabilité.

Le jour où Google ou Amazon vont avoir un soucis, beaucoup de clients vont déchanter du all wonderfull cloud sans précautions

Bonjour

Je suis ce thread avec grand intérêt, et je pense que tu soulève un point interesant, par essence le cloud  ne garantie pas une disponibilité de ressources en 'local' ( un serveur peu tombé mais un autre sera dispo qq part). Et donc les applications doivent etre pensees pour le cloud de maniere a etre distribuees et resilientes. Et au vu du nombre de sites down lors du problème chez OVH pas tout le monde a encore pris conscience du probleme.




Leon

  • Client SFR sur réseau Numericable
  • Modérateur
  • *
  • Messages: 5 971
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #145 le: 27 novembre 2017 à 12:05:00 »
Je suis ce thread avec grand intérêt, et je pense que tu soulève un point interesant, par essence le cloud  ne garantie pas une disponibilité de ressources en 'local' ( un serveur peu tombé mais un autre sera dispo qq part).
Voilà, c'est ce que j'essayais d'expliquer à miky01 : Cloud ou pas, si tu veux une vraie redondance entre plusieurs datacenter, il faut gérer tout ça au niveau "applicatif" dans la très grande majorité des cas. Donc c'est bien au client (ou à la SSII) de gérer ça, et d'acheter du cloud (ou serveurs dédiés) réparti dans plusieurs datacenters (proches si possible).

Il existe bel et bien des services où la redondance entre sites se fait un cran au dessous, au niveau de la couche de virtualisation et au niveau du stockage; avec redémarrage automatique de machines virtuelles sur site de secours, avec des disques synchronisés sur plusieurs sites. Mais ce genre de prestation est très cher!
La redondance au niveau applicatif est beaucoup plus efficace en général, et bouffe beaucoup moins de ressource (réseau principalement).

Citer
Et donc les applications doivent etre pensees pour le cloud de maniere a etre distribuees et resilientes. Et au vu du nombre de sites down lors du problème chez OVH pas tout le monde a encore pris conscience du probleme.
Assurer une une continuité de service lors de la perte d'un gros datacenter entier, ça peut couter très cher, s'il faut dédoubler quasiment tout sur plusieurs sites (quoi qu'on n'est pas obligé d'assurer la même qualité de service pendant l'incident).
Beaucoup de sites web n'ont tout simplement pas les moyens de le faire! Et ça n'est pas forcèment si grave que ça en fait...
OK, certains très gros sites web font un peu trop confiance à un seul prestataire. Pareil, certaines grandes entreprises migrent leurs serveurs internes vers des clouds type OVH en ne faisant pas attention au risque sur la disponibilité.

Mais ce genre d'événement reste rare. Une coupure de 2h sur une année, même en pleine journée, beaucoup de sites web peuvent se le permettre.

Leon.

Xanax

  • Abonné Orange Fibre
  • *
  • Messages: 149
  • FTTH 300/300 Sosh (38)
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #146 le: 27 novembre 2017 à 12:08:46 »
Mais le cloud type Amazon/Google est redondé bien plus sérieusement que celui d'Ovh non?

C'est à dire que je vois le cloud Amazon/Google redondé avec des caches répartis sur différents sites, reliés par différentes boucles, contrairement à celui d'Ovh qui redonde uniquement sur site. Enfin c'est ma façon de voir les choses. Peut être que je me trompe après.

Pi sincèrement, outre la redondance machine uniquement, ils ont vraiment pas eu de chance sur ce coup là, 3 groupes qui lâchent en même temps, c'est vraiment la faute à pas de chance (bien qu'une couche supplèmentaire de redondance machine aurait changé la donne, mais bon, ça n'a plus de sens à force. Rajouter un groupe sur chaque groupe, on a pas fini...)

(Désolé si ça parait méchant pour Ovh, c'est pas le cas, je ne suis pas pour ou contre eux)

gogol123

  • Abonné Bbox fibre
  • *
  • Messages: 44
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #147 le: 27 novembre 2017 à 12:20:09 »

Il existe bel et bien des services où la redondance entre sites se fait un cran au dessous, au niveau de la couche de virtualisation et au niveau du stockage; avec redémarrage automatique de machines virtuelles sur site de secours, avec des disques synchronisés sur plusieurs sites. Mais ce genre de prestation est très cher!
La redondance au niveau applicatif est beaucoup plus efficace en général, et bouffe beaucoup moins de ressource (réseau principalement).
Assurer une une continuité de service lors de la perte d'un gros datacenter entier, ça peut couter très cher, s'il faut dédoubler quasiment tout sur plusieurs sites (quoi qu'on n'est pas obligé d'assurer la même qualité de service pendant l'incident).
Beaucoup de sites web n'ont tout simplement pas les moyens de le faire! Et ça n'est pas forcèment si grave que ça en fait...
OK, certains très gros sites web font un peu trop confiance à un seul prestataire. Pareil, certaines grandes entreprises migrent leurs serveurs internes vers des clouds type OVH en ne faisant pas attention au risque sur la disponibilité.


Leon.

Leon

Je suis d'accord que pour beaucoup de cas le manque à gagne est peu etre moins important que le re design de l'applicatif en 'mode cloud'.
Par contre si l'applicatif est designé des le depart pour en tenir compte je ne pense pas ce le cout soit beaucoup plus cher. Aujourd'hui des techno comme les microservice , s'executant sur des architecture de type cluster docker  avec un ochestrateur ont le vent en poupe et ne coute pas forcement plus cher a exploiter.

Mais ce genre d'événement reste rare. Une coupure de 2h sur une année, même en pleine journée, beaucoup de sites web peuvent se le permettre.

Leon

  • Client SFR sur réseau Numericable
  • Modérateur
  • *
  • Messages: 5 971
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #148 le: 27 novembre 2017 à 12:41:55 »
Mais le cloud type Amazon/Google est redondé bien plus sérieusement que celui d'Ovh non?
C'est à dire que je vois le cloud Amazon/Google redondé avec des caches répartis sur différents sites, reliés par différentes boucles, contrairement à celui d'Ovh qui redonde uniquement sur site. Enfin c'est ma façon de voir les choses. Peut être que je me trompe après.
Je ne suis vraiment pas sur... Amazon a eu plusieurs gros incident majeurs, qui ont à chaque fois rendu indisponible de très nombreuses machines pendant plusieurs heures... Quand tu achètes un VPS à Amazon, tu choisis la "zone géographique". Et à ma connaissance, dans plusieurs des "zones géographiques AWS", il n'y a qu'un seul datacenter.
Bref, comme OVH.

Citer
Pi sincèrement, outre la redondance machine uniquement, ils ont vraiment pas eu de chance sur ce coup là, 3 groupes qui lâchent en même temps, c'est vraiment la faute à pas de chance (bien qu'une couche supplèmentaire de redondance machine aurait changé la donne, mais bon, ça n'a plus de sens à force. Rajouter un groupe sur chaque groupe, on a pas fini...)
Clairement, non, ça n'est pas 3 groupes qui lâchent. Un seul a lâché. Le site n'était plus en configuration redondante avec les groupes électrogène avant le début de l'incident et la coupure de courant, car un des groupes "basse tension" était en maintenance.
Les deux groupes HT n'avaient tout simplement pas la puissance nécessaire pour pallier au manque d'un autre groupe, bien que ces 2 groupes n'étaient pas défaillants. C'est bien pour ça qu'ils ont calé.
Comme je le mentionnais plus haut, je connais plusieurs datacenter qui font venir un groupe électrogène mobile pendant plusieurs jours pour gérer la maintenance de chacun des groupes électrogènes fixes, sans perdre la redondance pendant la maintenance.

Iliad-Online.net nous avait déjà fait le coup des multiples groupes qui lâchent en même temps : 3 groupes sur 6. Mais à ma connaissance, on n'a jamais eu le fin mot de l'histoire, et il y a des zones d'ombre dans leur explication.
https://lafibre.info/online/coupure-online/msg88844/#msg88844

Je suis d'accord que pour beaucoup de cas le manque à gagne est peu etre moins important que le re design de l'applicatif en 'mode cloud'.
Par contre si l'applicatif est designé des le depart pour en tenir compte je ne pense pas ce le cout soit beaucoup plus cher. Aujourd'hui des techno comme les microservice , s'executant sur des architecture de type cluster docker  avec un ochestrateur ont le vent en poupe et ne coute pas forcement plus cher a exploiter.
Tu semble omettre un point important : en plus du développement/utilisation d'une architecture logicielle redondante, il faut bien payer mes prestataires qui hébergent tout ça de manière redondante! Et donc ça coute forcèment plus cher que si tout est sur un seul site, de manière peu redondée. Si c'est dans du cloud, il faut payer du cloud réparti sur plusieurs sites différents.

Leon.

gogol123

  • Abonné Bbox fibre
  • *
  • Messages: 44
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #149 le: 27 novembre 2017 à 13:08:24 »
Je ne suis vraiment pas sur... Amazon a eu plusieurs gros incident majeurs, qui ont à chaque fois rendu indisponible de très nombreuses machines pendant plusieurs heures... Quand tu achètes un VPS à Amazon, tu choisis la "zone géographique". Et à ma connaissance, dans plusieurs des "zones géographiques AWS", il n'y a qu'un seul datacenter.
Bref, comme OVH.
AWS,Azure , Google ont pour chaque région une notion avaibility zones (au moins 3 par région) . Et tu choisis dans quelle zone tu instancie ton service. Je ne connais pas assez OVH mais il ne me semble pas qui,il ait ce concept?
Tu semble omettre un point important : en plus du développement/utilisation d'une architecture logicielle redondante, il faut bien payer mes prestataires qui hébergent tout ça de manière redondante! Et donc ça coute forcèment plus cher que si tout est sur un seul site, de manière peu redondée. Si c'est dans du cloud, il faut payer du cloud réparti sur plusieurs sites différents.

Leon.

non pas trop d’accord. Chez au moins les 3 cités plus haut , repartir tes services / serveurs sur plusieurs zones voir région ne coûte pas plus cher.
Chez aws par exemple, il est assez facile avoir une appli web (server d’application + base de données) ou tu fais régulièrement des snapshot de ta base que tu réplique sur une autre région.
Et en cas de problème tu redémarre assez facilement dans ta nouvelle région avec le snapshot. Ça peut éviter une journée de manque à gagner d’un site de ecommerce a moindre coût.



Xanax

  • Abonné Orange Fibre
  • *
  • Messages: 149
  • FTTH 300/300 Sosh (38)
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #150 le: 27 novembre 2017 à 13:26:10 »

Clairement, non, ça n'est pas 3 groupes qui lâchent. Un seul a lâché. Le site n'était plus en configuration redondante avec les groupes électrogène avant le début de l'incident et la coupure de courant, car un des groupes "basse tension" était en maintenance.
Les deux groupes HT n'avaient tout simplement pas la puissance nécessaire pour pallier au manque d'un autre groupe, bien que ces 2 groupes n'étaient pas défaillants. C'est bien pour ça qu'ils ont calé.
Comme je le mentionnais plus haut, je connais plusieurs datacenter qui font venir un groupe électrogène mobile pendant plusieurs jours pour gérer la maintenance de chacun des groupes électrogènes fixes, sans perdre la redondance pendant la maintenance.

Iliad-Online.net nous avait déjà fait le coup des multiples groupes qui lâchent en même temps : 3 groupes sur 6. Mais à ma connaissance, on n'a jamais eu le fin mot de l'histoire, et il y a des zones d'ombre dans leur explication.
https://lafibre.info/online/coupure-online/msg88844/#msg88844

Leon.

Désolé, j'ai confondu avec un autre DC, vu que dans le topic ça parlait d'hexaload, mais c'est Online je crois.

Mais par contre, je pensais vraiment que Amazon profitait de son implentation internationale pour proposer une redondance un peu plus serieuse au niveau des données. Au final ça ne doit pas couter bien plus cher non? C'est juste des disques durs et un petit serveur non?

Après je vois ça d'un oeil d'un mec qui travaille pas là dedans, je précise. Je passe beaucoup de temps à lire le forum, mais sans savoir si je comprends bien tout ^^

Leon

  • Client SFR sur réseau Numericable
  • Modérateur
  • *
  • Messages: 5 971
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #151 le: 27 novembre 2017 à 13:32:01 »
AWS,Azure , Google ont pour chaque région une notion avaibility zones (au moins 3 par région) . Et tu choisis dans quelle zone tu instancie ton service. Je ne connais pas assez OVH mais il ne me semble pas qui,il ait ce concept?
De ce que j'ai compris, plusieurs "availability zones" peuvent être localisées dans le même datacenter chez AWS... On garantit juste une isolation physique des réseaux électriques et télécom.
En France, chez OVH, tu as le choix entre 3 datacenters : Deux très gros (Roubaix et Gravelines) et un plus petit (Strasbourg). Tout ça avec IP failover évidemment, comme AWS.

Chez aws par exemple, il est assez facile avoir une appli web (server d’application + base de données) ou tu fais régulièrement des snapshot de ta base que tu réplique sur une autre région.
Et en cas de problème tu redémarre assez facilement dans ta nouvelle région avec le snapshot. Ça peut éviter une journée de manque à gagner d’un site de ecommerce a moindre coût.
Mais en cas de perte d'un datacenter géant tout entier, est-ce que AWS garantit qu'il aura suffisamment de ressource (serveurs) pour assurer le basculement des très nombreux clients qui veulent redémarrer sur le/les sites restants? Tous en même temps?
Je ne connais pas bien AWS, mais a-t-on une garantie de pouvoir basculer en volume des centaines d'instances en même temps?

Leon.

gogol123

  • Abonné Bbox fibre
  • *
  • Messages: 44
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #152 le: 27 novembre 2017 à 15:18:58 »
De ce que j'ai compris, plusieurs "availability zones" peuvent être localisées dans le même datacenter chez AWS... On garantit juste une isolation physique des réseaux électriques et télécom.
En France, chez OVH, tu as le choix entre 3 datacenters : Deux très gros (Roubaix et Gravelines) et un plus petit (Strasbourg). Tout ça avec IP failover évidemment, comme AWS.
l'avantage des availability zone au sein de la meme region est un temps de latence tres bas entre les different AZ , ce qui permet de faire des clusters repartis sur tes AZ, je ne sais pas quel peux etre la latence entre Strasbourg et Roubaix

Mais en cas de perte d'un datacenter géant tout entier, est-ce que AWS garantit qu'il aura suffisamment de ressource (serveurs) pour assurer le basculement des très nombreux clients qui veulent redémarrer sur le/les sites restants? Tous en même temps?
Je ne connais pas bien AWS, mais a-t-on une garantie de pouvoir basculer en volume des centaines d'instances en même temps?

Leon.

Instancier une centaine des serveurs dans une region ne doit pas poser beaucoup de probleme a mon avis

Netflix est la reference pour ce genre de probleme , par exemple avec leur theorie du Chaos Engineering il vont jusqu'a couper une region entier d'AWS sur le system de prod pour verifier que tout ce passe bien de leur cote.
Et pour situe le volume d'instanciation :  Fin 2015 il instancier plus de 1 millions de container par semaine : https://medium.com/netflix-techblog/the-evolution-of-container-usage-at-netflix-3abfc096781b

gogol123

  • Abonné Bbox fibre
  • *
  • Messages: 44
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #153 le: 27 novembre 2017 à 15:21:50 »
D'ailleur pour ceux que ca interresse un tres bon ebook (gratuit) sur le sujet du chaos engineering : http://www.oreilly.com/webops-perf/free/chaos-engineering.csp
Largement inspirer des pratique de netflix

Anonyme

  • Invité
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #154 le: 27 novembre 2017 à 18:05:09 »
l'avantage des availability zone au sein de la meme region est un temps de latence tres bas entre les different AZ , ce qui permet de faire des clusters repartis sur tes AZ, je ne sais pas quel peux etre la latence entre Strasbourg et Roubaix
Instancier une centaine des serveurs dans une region ne doit pas poser beaucoup de probleme a mon avis

Netflix est la reference pour ce genre de probleme , par exemple avec leur theorie du Chaos Engineering il vont jusqu'a couper une region entier d'AWS sur le system de prod pour verifier que tout ce passe bien de leur cote.
Et pour situe le volume d'instanciation :  Fin 2015 il instancier plus de 1 millions de container par semaine : https://medium.com/netflix-techblog/the-evolution-of-container-usage-at-netflix-3abfc096781b
Peut être plus maintenant,
Mais à la construction de la zone Amérique côte ouest, au lancement ( il n'y avait que EC2 et S3 ) nous avions lancé un produit ios avec "load balancer applicatif" permettant de donner des stats ( équipes /jouers etc.) et de faire des paris en direct sur le Base Ball en collaboration avec Endemol, toutes les instances devaient être lancées à la main via scripts (c'est à partir de ce moment là ou on a inventé le "scale up" avec AWS et que le concept a été repris ) et bien lors du lancement du produit sur la FOX, des équipes étaient établies aux US, Israel, France, la zone est tombée.
On avait Werner Vogels avec les équipes a essayer de remonter les services.

errare humanum est

vivien

  • Administrateur
  • *
  • Messages: 47 085
    • Twitter LaFibre.info
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #155 le: 27 novembre 2017 à 18:36:46 »
Instancier une centaine des serveurs dans une region ne doit pas poser beaucoup de probleme a mon avis

Si tu perd 80 000 instances sur un datacenter, un second n'aura pas la capacité disponible (machines physiques, lien réseaux,...) pour prendre en charge le  milliers d’instances supplèmentaires.