Auteur Sujet: Panne électrique majeure chez OVH (sites inacessibles) (Lu 90051 fois)

xp25 · « **Réponse #36 le:** 09 novembre 2017 à 14:24:46 »

Citation de: miky01 le 09 novembre 2017 à 13:25:11

Deux alims EDF et deux groupes en pannes en meme temps, c'est simplement impossible quand on fait un design High-Availlibilité correctement, c'est une excuse bidon, ou ca été fait vraiment par des bras cassés...

Il y a un règle a respecter, c'est N+1, donc si 2 groupes sont en caraffe, ce qui peux arriver avec la loi de Murphy, il en faillait simplement trois, comme pour les clims, c'est le meme principe.
C'est impossible de planifier une maintenance avec downtime sur une clim ou un groupe, sachant qu'il y a plus de redondance en cas de panne imprévue.

Les tableaux électrique ne se mettent pas au meme endroit, les adductions dans le bâtiment sont a l’opposé, maintenant des couillons j'en ai vu, la pompe a diesiel branchée sur le réseau EDF au lieu d'un onduleur, ce qui fait que ca c'est jamais remarqué pendant les tests, jusqu'au jour ou il y a eu une panne réelle de 2 heurs dans un DC, et les deux groupes on tourné 5 minutes le temps de vider les canalisations de fioul

Toutes ces sociétés gérées techniquement par des baltringues.
Depuis le temps que je le dit

Ils n'ont aucun bon sens et sont juste bardés de diplômes et certifications Cisco et Microsoft mais ça, ça ne suffit pas sur un CV !!!

Remember TV5 monde !!!!

Et on s'étonne que des gosses de 15 ans pénètrent dans des serveurs de sociétés.

On vie une époque formidable

vivien · « **Réponse #37 le:** 09 novembre 2017 à 16:24:01 »

Citation de: xp25 le 09 novembre 2017 à 14:24:46

Toutes ces sociétés gérées techniquement par des baltringues.

Ce terme ne me semble pas du tout approprié.

La majorité des Datacenter qui ont eu plus de 10 ans d'exploitation ont eu des pannes qui sembles impossibles.

Comme dans d'autres cas, je pense que nous ne connaîtrons jamais la vrai vérité.

vivien · « **Réponse #38 le:** 09 novembre 2017 à 16:56:10 »

Citation de: Hugues le 09 novembre 2017 à 13:28:21

Mes machines à Strasbourg sont toujours down...

Tout est maintenant reparti sur Stastbourg mais nous n'avons pas l'explication technique.

Sur l'incident plus important qui a coupé d'Internet tous les datacentre français d'OVH, on a plus d'informations :

Bonjour,
Ce matin, nous avons eu un incident sur le réseau optique qui interconnecte notre site de Roubaix (RBX) avec 6 des 33 points de présence (POP) de notre réseau : Paris (TH2 et GSW), Francfort (FRA), Amsterdam (AMS), London (LDN), Bruxelles (BRU).

Le site RBX est connecté à travers 6 fibres optiques à ces 6 POP : 2x RBX<>BRU, 2x RBX<>LDN, 2x RBX<>Paris (1x RBX<>TH2 et 1x RBX<>GSW). Ces 6 fibres optiques sont connectées aux systèmes de nœuds optiques qui permettent d’avoir 80 longueurs d’onde de 100Gbps sur chaque fibre optique.

Pour chaque 100G connectés aux routeurs, nous utilisons 2 chemins optiques qui sont géographiquement distincts. En cas de coupure de fibre optique, le fameux « coup de pelleteuse », le système se reconfigure en 50ms et tous les liens restent UP. Pour connecter RBX aux POP, nous avons 4.4Tbps de capacité, 44x100G : 12x 100G vers Paris, 8x100G vers London, 2x100G vers Bruxelles, 8x100G vers Amsterdam, 10x100G vers Frankfurt, 2x100G vers DC GRA et 2x100G vers DC SBG.

A 8h01, d’un coup, l’ensemble des liens 100G, les 44x 100G, ont été perdus. Étant donné le système de redondance que nous avons mis en place, l’origine du problème ne pouvait pas être la coupure physique de 6 fibres optiques simultanèment. Nous n’avons pas pu faire les diagnostiques sur les châssis à distance car les interfaces de management étaient figées. Nous avons été obligés d’intervenir directement dans les salles de routage, pour faire les manipulations sur les châssis : déconnecter les câbles entre les châssis puis faire redémarrer le système et enfin seulement faire les diagnostiques avec l’équipementier. Les tentatives de redémarrage du système ont pris beaucoup de temps, car chaque châssis a besoin de 10 à 12 minutes pour démarrer. C’est la principale raison de la durée de l’incident.

Le diagnostique : Toutes les cartes transpondeurs que nous utilisons, ncs2k-400g-lk9, ncs2k-200g-cklc, sont passées en état « standby ». L’une des origines possible d’un tel état est la perte de configuration. Nous avons donc récupéré le backup et remis en place la configuration, ce qui a permis au système de reconfigurer toutes les cartes transpondeurs. Les 100G dans les routeurs sont revenus naturellement et la connexion de RBX vers les 6 POP a été rétablie à 10h34.

Il s’agit clairement d’un bug software sur les équipements optiques. La base de données avec la configuration est enregistrée 3 fois et copiée sur 2 cartes de supervision. Malgré toutes ces sécurités, la base a disparu. Nous allons travailler avec l’équipementier pour trouver l’origine du problème et les aider à fixer le bug. Nous ne remettons pas en cause la confiance avec l’équipementier, même si ce type de bug est particulièrement critique. L’uptime est une question de design qui prend en compte tous les cas de figure, y compris quand plus rien ne marche. Le mode parano chez Ovh doit être poussé encore plus loin dans l’ensemble de nos designs.

Les bugs ça peut exister, les incidents qui impactent nos clients non. Il y a forcement une erreur chez Ovh puisque malgré tous les investissements dans le réseau, dans les fibres, dans les technologies, nous venons d’avoir 2 heures de downtime sur l’ensemble de nos infrastructures à Roubaix.

L’une des solutions est de créer 2 systèmes de nœuds optiques au lieu d’un seul. 2 systèmes, cela veut dire 2 bases de données et donc en cas de perte de la configuration, un seul système est en panne. Si 50% des liens passent par l’un des systèmes, aujourd’hui, nous aurions perdu 50% de la capacité mais pas 100% de liens. C’est l’un des projets que nous avons commencé il y a 1 mois, les châssis ont été commandés et nous allons les recevoir dans les prochains jours. Nous pourrons commencer les travaux de configuration et migration sous 2 semaines. Vu l’incident d’aujourd’hui, ce projet devient prioritaire, pour l’ensemble de nos infrastructures, tous les DCs, tous les POPs.

Dans le métier de fournisseur des infrastructures Cloud, seul ceux qui sont paranos durent. La qualité de service est une conséquence de 2 éléments. Tous les incidents anticipés « by design ». Et les incidents où nous avons appris de nos erreurs. Cet incident là nous amène à mettre la barre encore plus haut pour s’approcher du risque zéro.

Nous sommes sincèrement désolés pour les 2H33 minutes de downtime sur le site RBX. Dans les prochains jours, les clients impactés vont recevoir un email pour déclencher l’application des engagements SLA.

Amicalement
Octave

e-TE · « **Réponse #39 le:** 09 novembre 2017 à 17:12:46 »

je me doute qu'un tel équipement ne doit pas être donné, ni fait pour s'arrêter tous le temps... mais 1 seul équipement pour faire arriver toute les fibres / 4.4tbps de son réseau... un bon gros spof

après, le matos était déjà commandé pour le doubler, et minimiser les risques, mais a trop jouer a celui qui sert les fesses, ca finit par lâcher xD et jamais au bon moment...

l'avantage c'est qu'en cumulant les 2 incidents du jour, ça ne fait qu'une seule fois du downtime xD

vivien · « **Réponse #40 le:** 09 novembre 2017 à 17:19:23 »

Attention, il n'a pas dit que tout était sur un même équipement, mais il a dit que tout était sur un même système. C'est différent.

Un système est composé de plusieurs équipements qui peuvent être sur plusieurs sites. En cas de bug logiciel, il est possible de perte l'intégralité.

Citation de: vivien le 09 novembre 2017 à 16:56:10

L’une des solutions est de créer 2 systèmes de nœuds optiques au lieu d’un seul. 2 systèmes, cela veut dire 2 bases de données et donc en cas de perte de la configuration, un seul système est en panne. Si 50% des liens passent par l’un des systèmes, aujourd’hui, nous aurions perdu 50% de la capacité mais pas 100% de liens. C’est l’un des projets que nous avons commencé il y a 1 mois, les châssis ont été commandés et nous allons les recevoir dans les prochains jours. Nous pourrons commencer les travaux de configuration et migration sous 2 semaines. Vu l’incident d’aujourd’hui, ce projet devient prioritaire, pour l’ensemble de nos infrastructures, tous les DCs, tous les POPs.

e-TE · « **Réponse #41 le:** 09 novembre 2017 à 17:26:18 »

effectivement, j'ai lu trop vite

Leon · « **Réponse #42 le:** 09 novembre 2017 à 19:08:57 »

L'avantage de ce genre d'incident majeur, c'est que ça montre les SPOF (Single Points Of Failure). Certes, de manière un peu brutale, mais au moins, ça incite sérieusement à corriger.

Dans le cas présent, j'avais envie de dire qu'il est très étonnant de la part d'OVH de mettre tous ses équipements optiques de Roubaix ensembles, avec une seule config pour tous, qui constituent un seul "système".
Mais je/nous n'avons clairement pas assez d'éléments pour juger de quoi que ce soit, la critique bête et méchante est trop facile.
Et puis on ne tire pas sur les ambulances.

Dans un domaine "très haute disponibilité" que je connais, on pousse le vice jusqu'à éliminer au maximum les "défaillances systématiques" (bugs, erreur de conception), en multipliant les fournisseurs : équipements différents, groupes électrogènes et onduleurs de marques différentes, climatisation, routeurs, switches, serveurs de marques différentes, processeurs différents, et softs totalement redondants mais développés par des équipes différentes, avec des méthodes de conception différentes, avec des compilateurs différents, etc... Ca peut aller très loin.

Pour finir, la concordance entre les 2 défaillances majeures chez OVH est assez incroyable. Les 2 pannes majeures (équipements optiques à Roubaix et coupure électrique à Strasbourg) ont eu lieu à quelques dizaines de minutes d'écart. Si c'est vraiment le hasard, c'est pas de bol.

Leon.

miky01 · « **Réponse #43 le:** 09 novembre 2017 à 19:11:50 »

La dernière phrase en dit long...

Citer

Nous sommes sincèrement désolés pour les 2H33 minutes de downtime sur le site RBX. Dans les prochains jours, les clients impactés vont recevoir un email pour déclencher l’application des engagements SLA.

Le nombre de fois ou j'ai entendu de la part des financiers "de la haute disponibilité nous coute bien plus cher que d'indemiser un SLA pas respecté"
Surtout que statistiquement les incidents a indemniser sont tres rare.

Et OVH fait plutot dans le "low cost" alors nous faire croire que la tres haute disponibilité est leur priorité, j'ai du mal a le croire.

Marin · « **Réponse #44 le:** 09 novembre 2017 à 19:14:34 »

Citation de: Leon le 09 novembre 2017 à 19:08:57

Pour finir, la concordance entre les 2 défaillances majeures chez OVH est assez incroyable.

Pour une personne qui a uniquement les informations qui ont été communiqués, je ne vois pas comment le rapprochement ne peut pas être un peu évident. Base de données corrompue, shutdowns électriques, shutdowns électriques, base de données corrompue ?

S'il y a du redémarrage de masse pour diagnostiquer des problèmes dans la plus grande panique ça compte aussi.

cali · « **Réponse #45 le:** 09 novembre 2017 à 19:15:26 »

Citation de: miky01 le 09 novembre 2017 à 19:11:50

Et OVH fait plutot dans le "low cost" alors nous faire croire que la tres haute disponibilité est leur priorité, j'ai du mal a le croire.

Bien dit.

Nico · « **Réponse #46 le:** 09 novembre 2017 à 19:15:33 »

Citation de: Leon le 09 novembre 2017 à 19:08:57

Dans le cas présent, j'avais envie de dire qu'il est très étonnant de la part d'OVH de mettre tous ses équipements optiques de Roubaix ensembles, avec une seule config pour tous, qui constituent un seul "système".

Sauf si c'est le principe même de leur ring WDM

.

Citer

Pour finir, la concordance entre les 2 défaillances majeures chez OVH est assez incroyable. Les 2 pannes majeures (équipements optiques à Roubaix et coupure électrique à Strasbourg) ont eu lieu à quelques dizaines de minutes d'écart. Si c'est vraiment le hasard, c'est pas de bol.

Ou alors c'est (un peu) lié...

Leon · « **Réponse #47 le:** 09 novembre 2017 à 19:21:44 »

Citation de: miky01 le 09 novembre 2017 à 19:11:50

La dernière phrase en dit long...

Le nombre de fois ou j'ai entendu de la part des financiers "de la haute disponibilité nous coute bien plus cher que d'indemiser un SLA pas respecté"
Surtout que statistiquement les incidents a indemniser sont tres rare.

Et OVH fait plutot dans le "low cost" alors nous faire croire que la tres haute disponibilité est leur priorité, j'ai du mal a le croire.

@Miky,
Je suis assez d'accord avec toi sur la partie SLA.

Mais je ne suis pas du tout d'accord avec toi sur le fait que la "haute dispo" ne serait pas la priorité d'OVH. Ici, on parle bel et bien de la perte totale du plus gros datacenter d'OVH, de plusieurs dizaines de milliers de serveurs, dont beaucoup de serveurs à 400€ par mois!
Clairement, on ne gère pas la "haute dispo" de la même façon entre un équipement (switch) qui impacte une seule baie (quelques dizaines de serveurs) et un équipement (routeur de coeur, optique longue distance) dont la perte peut impacter des dizaines de milliers de serveurs. OVH se doit d'assurer une haute disponibilité sur son coeur de réseau, ça me semble être une évidence. Même si OVH n'avait que des serveurs low cost (ce qui n'est pas le cas), il faudrait qu'ils assurent cette haute dispo dans leur coeur de réseau, vu le volume impacté.

Leon.