Nous avons désormais un retour détaillé sur la 2ieme panne majeure du 9 novembre, la coupure totale des interconnexions réseau à partir du site de Roubaix, le plus gros datacenter d'OVH en France.
https://www.ovh.com/fr/blog/retour-experience-incident-reseau-9-novembre-2017-site-de-roubaix/(Google Cache si ça plante)
Je ne connais pas le domaine des réseaux télécom longue distance, mais je suis très surpris : on a ici un seul équipement optique "master" qui configure tous les équipements du site de Roubaix. Donc les équipements redondants ne sont clairement pas indépendants les uns des autres. J'ai beaucoup de mal à comprendre. Une simple erreur humaine de configuration pourrait aboutir au même problème, non?
Quelqu'un peut-il nous expliquer ce que font les processeurs de ces cartes de supervision?
Juste surveiller ce que remontent chacune des différentes cartes? Les puissances optiques observées, le taux d'erreur, et c'est tout?
Tout ça actualisé, disons toutes les 10ms?
Même pour une centaine de longueurs d'ondes redondantes, ça représente une toute petite charge CPU, on est bien d'accord?
Qu'est-ce que ces cartes de supervision permettent de configurer?
* les différentes longueur d'onde de chacun des transpondeurs?
* les atténuateurs, les amplis, les modules de compensation de dispersion?
* les switches optiques assurant la redondance?
Pourquoi centraliser ainsi la configuration des équipements? Ne peut-on pas créer des boucles optiques longue distance, où chaque noeud est totalement indépendant des autres, et réagit seulement aux coupures? Genre je ne vois plus Paris par la fibre Ouest, donc je regarde Paris par la porte Sud...
Pourquoi tous ces équipements ne sont-ils pas indépendants les uns des autres?
OK, la remontée d'informations depuis les différentes cartes / modules, c'est pratique et ça n'introduit aucun SPOF si c'est bien isolé.
Mais la configuration par un seul équipement central, c'est contraire aux règles de redondance! C'est limite choquant!
Dans des installations industrielles ultra redondantes/disponibles que je connais, on s'assure que chaque "automate" a une autonomie de décision, donc qu'il est isolé des autres automates redondants, donc non influençable par les bugs des autres (même s'ils s'échangent des informations simples entre eux pour se surveiller mutuellement).
Dans le cas de boucles optiques WDM redondantes que j'avais eu la chance de voir il y a 15 ans, tout était réalisé avec des équipements séparés, indépendant. Tout était configuré à la main (ajout d'atténuateurs, module laser spécifique pour chaque longueur d'onde). J'imagine bien que ça n'est plus forcèment possible quand on parle de 80 longueurs d'ondes différentes, et de chassis optiques denses (quoi que pour Cisco ça n'est pas si dense).
Mais il y a certainement un compromis à trouver entre
1) l'automatisation de la config qui rajoute un SPOF
2) système complexe à configurer (quasi manuellement) mais hautement redondant une fois qu'il est bien configuré
J'avais déjà vu ce genre de blagues (SPOF "logique") pour des onduleurs industriels, qui étaient censés être redondants, et qui étaient pourtant tous reliés à un seul réseau d'information logique et propriétaire, qui constituait un SPOF.
Leon.