Hello,
tout d'abord hors technique, une remarque : Je suis le seul à être exaspéré par les "experts","ultra" et compagnie dans tous les sens sur les communiqués pour se prétendre exceptionnel quand il arrive un problème ? Ca fait beaucoup de blabla à raconter une belle histoire plutôt que de raconter les faits et comment c'est géré, ça me donne pas trop confiance perso ce genre de discours, je ne trouve pas la com bonne.
Sinon techniquement pour le peu qui est dit :
- Je suis surpris que sur ce type de problème le backbone n'annonce plus aucune route à personne nulle part. Pour moi il y a un vrai problème quelque part dans la conception/architecture. Comment une boucle de niveau 2 peu impacter un coeur de réseau de cette manière ?
- Une boucle réseau L2 entre des sites ? Ca se fait encore ça ? Même pour du management, ça coûte pas bien cher de faire un réseau L3 de gestion avec de l'OSPF. Là encore, que le L2 de management impacte les routeurs BGP, pour moi c'est un problème de conception, j'ai du mal à l'imaginer. Pourquoi partir sur TRILL/SPF ou sur tout autre solution L2 quand un 3560G d'occasion à moins de 1500 Euros sait très bien faire de l'OSPF et gérer une area de management sur un réseau séparé ? (ou même du PowerConnect ou autre moins cher encore) Après il y a aussi les technos MAN L2 (plus toutes jeunes) qui existent comme chez Foundry/Brocade ou tu peux déclarer un anneau L2 protégé.
- Pour le "storm" L2. Ca dépend pas mal des équipements mais aussi du type de paquet. Entre unicast, multicast, broadcast, et autres le traitement n'est pas toujours le même, notamment sur le traitement en CPU central. Par exemple le problème FranceIX ce n'était pas du broadcast mais du discard en masse. Faut aussi voir que malheureusement beaucoup trop de petits opérateurs branchent leur port FranceIX sur un L2 au lieu de directement connecter un routeur, ce qui n'est pas propre (reste que c'est à l'IX d'être strict sur sa politique de protection et d'autorisation)
- Pour le choix d'hébergeur : OVH et d'autres low cost ne sont pas adaptés pour ce type de client, ils ne fournissent pas un support d'infogérence poussé, le choix dépend souvent de la présence ou non d'équipes d'admin sys complètes chez les sociétés en fait. Un Ecritel, Lynkbynet, Prosodie ou autres vont vendre une infogérance en général avec l'hébergement (je vais pas m'étendre sur le niveau de qualité selon les boîtes qui m'a parfois désespéré), là où un gros hoster comme OVH ou Online ne veut pas se prendre trop la tête avec de l'humain et des cas particuliers et mise à fond sur le hosting pur automatisé au max. Typhoon est devenu une référence sur l'hébergement à valeur ajoutée ces dernières années (pas sûr que ça continue avec le rachat, je suis plus trop), c'est sûr que ses clients sont différents de ceux des gros low coster. Oxalyde je suis un peu surpris aussi qu'ils aient ces références par rapport à leur taille, mais il y a peut-être un aspect politique/loby derrière toutes ces références. Aussi parfois quand on a 2-3 références concurrentes, c'est plus facile de convaincre un client de venir, parce qu'il ne prend pas de risque, c'est "ce que tout le monde prend".
- Concernant le problème lui même ma curiosité :
1) Est-ce que le réseau de management est branché sur les ports mgmt des équipements ou juste sur un port quelconque ?
2) Est-ce que le L3 et le L2 des sites sont gérés directement sur le coeur sans edge ?
3) Est-ce que les préfixes étaient bien déclarés sur l'ensemble des routeurs de coeur ou du moins bien redondés ?
4) Est-ce que le réseau de management c'était pas juste une boucle L2 sur les équipements directement ? (là ça ferait très peur)
Franchement je ne vais pas m'avancer à dire que c'est du pipeau mais l'explication et le style des communiqués me laisse suspicieux de mon côté, tant sur la cause que sur les conséquences que ça a.
Mais bon ça ne fait que renforcer ces principes :
- Eviter autant que possible le L2
- Ne jamais faire de L2 entre plusieurs sites (hors technos MPLS ou modernes et encore, il vaut mieux séparer au max du coeur)
- Le coeur de réseau ne doit pas voir passer de L2, c'est le rôle des routeurs edge en dessous.
- Un réseau de management ne doit jamais "leaker" sur le réseau principal et vice versa
C'est con parce que le jour où c'est arrivé je compatissais pour eux, mais de voir les communiqués et les explications change la vision que j'ai de l'incident à présent :/
My 2 cents.