Auteur Sujet: Incident voix Orange du 14/15 mai: L'élément déclencheur est un bug de QFabric ?  (Lu 37364 fois)

0 Membres et 1 Invité sur ce sujet

rmaunier

  • AS35280 Volterra
  • Expert
  • *
  • Messages: 29
  • Paris (75)
    • Volterra

- un sur le réseau qui effectivement, serait sur la Qfrabric (GROS SWITCH) d'un des deux backbone du datacenter de Val de Reuil.

Une Fabric c'est pas un gros switch, c'est un ensemble de switchs qui forment une fabrique Ethernet. Tu pourrais induire des gens en erreur qui pourraient encore interpreter et dire : Ouah , chez Orange ils ont tout sur un seul gros switch , mais c'est pas du Netgear, c'est une marque inconnue qui vient de je ne sais pas ou, Juniper, jamais entendu parler ( comme on est entouré d'expert il est important de le préciser hein )

guiz67

  • Abonné Sosh fibre
  • *
  • Messages: 527
  • Ernolsheim Bruche (67)
Tu as raison mais je ne voulais pas non plus rentrer dans les détails ;)

Mais pour ceux qui veulent :http://www.clubic.com/pro/it-business/actualite-399892-juniper-qfabric-voulu-remettre-plat-reseaux-datacenters.html


vivien

  • Administrateur
  • *
  • Messages: 47 170
    • Twitter LaFibre.info
Je proposerais comme nouveau titre : Selon une source proche du dossier : incident KAMOULOX !
Ça me parait pas mal non ? :)

J'ai vu le ticket moi-même, donc je suis en mesure de confirmer moi même les propos de thibault64, Hugues et guiz67.

Le message a par contre peut-être été trop vulgarisé.

Parler d'un défaut sur le Director Group DG1, c'est tout de suite moins compréhensible pour le grand public. (Les Director Group sont en quelque sorte le cerveau de la fabric).

Nh3xus

  • Réseau Deux Sarres (57)
  • Abonné MilkyWan
  • *
  • Messages: 3 257
  • Sarrebourg (57)
Globalement, la QFabric est un sujet sensible chez Orange, car elle est très souvent sujette aux bugs / plantages.

Il y a un ingénieur de chez Juniper qui travaille sur un site d'Orange de manière quasi-permanente avec les équipes qui s'occupent de la QFabric à cause de cela.

romualdt

  • Abonné Bbox fibre
  • *
  • Messages: 207
  • Neauphle-Le-Vieux (78)
Parler d'un défaut sur le Director Group DG1, c'est tout de suite moins compréhensible pour le grand public. (Les Director Group sont en quelque sorte le cerveau de la fabric).[/size]

Espérons que le même genre de bug n'existe pas sur les APIC d'ACI  ;D (espoir fait vivre...)

thibault64

  • Expert
  • Abonné Bbox fibre
  • *
  • Messages: 363
  • FTTH 1Gbps/700Mbps - Albi (81)
J'ai mis a jour mon post initial pour rectifier et étoffer mes déclarations.
La QFabric étant un sujet sensible chez Orange comme le dit si justement Nh3xus, je vous ai indiqué le maximum de détails permis.

rmaunier

  • AS35280 Volterra
  • Expert
  • *
  • Messages: 29
  • Paris (75)
    • Volterra
J'ai mis a jour mon post initial pour rectifier et étoffer mes déclarations.
La QFabric étant un sujet sensible chez Orange comme le dit si justement Nh3xus, je vous ai indiqué le maximum de détails permis.
C'est beaucoup mieux !

Il ne faut pas oublier que lorsque l'on simplifie trop les messages et surtout pour un opérateur de la taille d'Orange, les messages seront relayés et souvent tres mal interpretéSans compter, qu'il y a les ingés qui bossent dessus ( et c'est pas des boulets chez Orange ), et ce genre de rumeurs apres, pourrait leur deservir :)
Des fois, on peut taper dessus ( quand les mecs ont fait les gros boulets ), mais la l'impact etait quand meme enorme, donc , on est plutot solidaire ( et sur la reserve ) ^^

rmaunier

  • AS35280 Volterra
  • Expert
  • *
  • Messages: 29
  • Paris (75)
    • Volterra
Globalement, la QFabric est un sujet sensible chez Orange, car elle est très souvent sujette aux bugs / plantages.

Il y a un ingénieur de chez Juniper qui travaille sur un site d'Orange de manière quasi-permanente avec les équipes qui s'occupent de la QFabric à cause de cela.
Et pourtant tout le monde sait qu'il faut changer la techno :) Depuis, tout a évolué, j'espere qu'ils vont se decider a migrer, car la qfabric a fait son temps, C'etait une techno qui est sortie lorsqu'il n'y avait pas encore evpn et les fabrique IP pas vraiment pretes. il est temps pour eux de passer sur une ipfabric, y a des chances que ce plantage booste un peu le planning :)

xp25

  • Abonné RED by SFR fibre FttH
  • *
  • Messages: 5 924
Qui se souvient du gros bordel en tel classique FT survenu il y a quelques années de ça quand plusieurs grands centraux était tombés l'un après l'autre dans plusieurs départements un soir (je dirais fin 90, début 2000) ?

Ah la belle époque ce blackout total ou même les appels d'urgence était impossible ;D

Là, il y avait personne pour faire le beau et se la ramener sur twitter hahaha.

BadMax

  • Client Free adsl
  • Expert
  • *
  • Messages: 3 481
  • Malissard (26)
Espérons que le même genre de bug n'existe pas sur les APIC d'ACI  ;D (espoir fait vivre...)

Pas besoin des APIC pour fonctionner, ACI c'est un EVPN sur VxLAN piloté par une couche spécifique. Sans les APIC tu ne peux plus gérer la fabric mais elle continue de se gérer toute seule. Avec ACI le problème c'est plutôt d'arriver à lui faire comprendre ce que tu veux faire et de trouver par quel moyen lui faire faire. Tant qu'il ne t'a pas jeté, c'est que ça marche ! Ou alors pas comme tu le voulais ^^

Note pour les non-experts: ACI est le SDN de Cisco pour les réseaux Datacenters, l'acronyme signifie Application Centric Infrastructure car ses contrôleurs ont la capacité d'aller intégrer dans la fabric les équipements Load-Balancer (F5 BigIP), les firewalls (Palo Alto, Checkpoint...) et des hyperviseurs (vSphere, Hyper-V, Openstack).

Il parait que ça été déployé chez le carré rouge, si y'a le même problème que chez Orange, on verra si ça sera la même cause ^^
 

romualdt

  • Abonné Bbox fibre
  • *
  • Messages: 207
  • Neauphle-Le-Vieux (78)
Pas besoin des APIC pour fonctionner, ACI c'est un EVPN sur VxLAN piloté par une couche spécifique. Sans les APIC tu ne peux plus gérer la fabric mais elle continue de se gérer toute seule. Avec ACI le problème c'est plutôt d'arriver à lui faire comprendre ce que tu veux faire et de trouver par quel moyen lui faire faire. Tant qu'il ne t'a pas jeté, c'est que ça marche ! Ou alors pas comme tu le voulais ^^

Oui je suis d'accord sur le principe... mais en pratique parfois tu ne vois des choses qu'après expérimentation...
Je verrais bien dans le temps car la montée en charge est pour bientot par chez moi.

vivien

  • Administrateur
  • *
  • Messages: 47 170
    • Twitter LaFibre.info
J'ai du nouveau : La communication en Interne Orange sur cet incident a été très limitée (et pour la communication externe, je ne ferais pas de commentaire).

Comme l'explique bien thibault64, il y a eu un incident majeur sur la QFabric Juniper de DC Orange de Val-de-Reuil : Lundi matin, la coupure du lien d'interconnexion entre un Director Group défectueux et le Director Group encore fonctionnel provoque un redémarrage inattendu de ce dernier et isole le backbone de la Qfabric. Le redémarrage du dernier Director Group encore fonctionnel provoque simultanèment le reboot des Redundant Server Node Group.

Cet incident a une coïncidence temporelle troublante avec l'incident Voix, mais les équipements voix ne sont pas connecté à ce backbone.

Peut-être les investigations montrerons que cet incident sur la QFabric Juniper est lié à l'incident VoIP, mais pour l'instant ce n'est pas l'hypothèse retenue par Orange.

Pour rappel en 2012, pour un incident d'une même gravité (perturbation d'une grande partie des appels voix sur le réseau mobile d'Orange pendant 7h), on avait eu le droit a un post-mortem bien expliqué, accessible au grand public avec un vidéo :