L'avantage de ce genre d'incident majeur, c'est que ça montre les SPOF (Single Points Of Failure). Certes, de manière un peu brutale, mais au moins, ça incite sérieusement à corriger.
Dans le cas présent, j'avais envie de dire qu'il est très étonnant de la part d'OVH de mettre tous ses équipements optiques de Roubaix ensembles, avec une seule config pour tous, qui constituent un seul "système".
Mais je/nous n'avons clairement pas assez d'éléments pour juger de quoi que ce soit, la critique bête et méchante est trop facile.
Et puis on ne tire pas sur les ambulances.
Dans un domaine "très haute disponibilité" que je connais, on pousse le vice jusqu'à éliminer au maximum les "défaillances systématiques" (bugs, erreur de conception), en multipliant les fournisseurs : équipements différents, groupes électrogènes et onduleurs de marques différentes, climatisation, routeurs, switches, serveurs de marques différentes, processeurs différents, et softs totalement redondants mais développés par des équipes différentes, avec des méthodes de conception différentes, avec des compilateurs différents, etc... Ca peut aller très loin.
Pour finir, la concordance entre les 2 défaillances majeures chez OVH est assez incroyable. Les 2 pannes majeures (équipements optiques à Roubaix et coupure électrique à Strasbourg) ont eu lieu à quelques dizaines de minutes d'écart. Si c'est vraiment le hasard, c'est pas de bol.
Leon.