Auteur Sujet: Incident voix Orange du 14/15 mai: L'élément déclencheur est un bug de QFabric ?  (Lu 37090 fois)

0 Membres et 1 Invité sur ce sujet

thibault64

  • Expert
  • Abonné Bbox fibre
  • *
  • Messages: 363
  • FTTH 1Gbps/700Mbps - Albi (81)
L'incident d'hier provient d'un bug entre 2 switchs Juniper sur une infra qui supporte une très grosse partie de la voix (et aussi une partie du service TV apparemment..) dans le DC Orange de Val-de-Reuil. Cela a eu pour effet de planté totalement l'infra en question. L'infra de secours à Aubervilliers a été activé mais le transfert de charge a rendu l'infra de secours instable. Voilà en gros ce qui s'est passé.

L'incident d'aujourd'hui provient apparemment de la tentative de repasser sur l'infra nominale.

Source: un ami très bien informé chez Orange


EDIT 17/05/2018 : l'incident voix du 14 mai 2018 à eu pour élèment déclencheur un bug de la QFabric sur le backbone 2 de Val-de-Reuil.

En effet, suite à un défaut survenu la veille sur l'un des 2 Director Group que compte le backbone, décision est prise de continuer les investigation sur l'état du Director Group défectueux.
Pour éviter qu'il ne perturbe le service à tout moment, mais aussi pour récupérer des données sur l'équipement (nécessaire pour alimenter le case Juniper) la décision est prise d'isoler totalement celui-ci par la fermeture de ses ports le reliant aux 2 Control-Plane.
La coupure du lien d'interconnexion entre le Director Group défectueux et le Director Group encore fonctionnel provoque un redémarrage inattendu de ce dernier et isole le backbone de la Qfabric. De plus, le redémarrage du Director Group encore fonctionnel provoque simultanèment le reboot des Redundant Server Node Group (comportement prévu par design sur perte des Director Group) ainsi que de l'ensemble des QFnodes associées au backbone générant des effets de bords applicatifs.
L'incident a également été aggravé par un défaut sur un port physique d'un équipement de l'agrégat vers la Qfabric qui générait de multiples erreurs CRC matérialisé par des bagots VRRP récurrents et impactant fortement plusieurs applications.

Lexique :
Director Group : Les Director Group sont le cerveau de la fabric et le point d'administration centrale.
Control-Plane : Les Control Plane sont les composants intermédiaires pour transmettre les ordres issus des Director Group vers les Redundant Server Node Group.


Il a été malencontreux de ma part de parler simplement d'un "bug entre 2 switchs Juniper". Par cela, je voulais éviter de rentrer dans les détails pour les profanes Juniper dont je fais parti puisque je ne fais que relater des informations venant d'une source interne à Orange souhaitant rester discrète.

Concernant le reste de mes déclarations, mon contact chez Orange (un ami), m'a indiqué avoir interprété cela d'après différents tickets internes qui semblait être en lien. Il a été encore une fois malencontreux de ma part d'avancer ces informations en me basant uniquement sur ses propres constatations, d'autant plus que je ne disposais pas d'éléments probants pour étayer ses propos. Mea culpa :-[
A l'avenir je ferais preuve d'un peu plus de rigueur quant à mes déclarations.
« Modifié: 17 mai 2018 à 22:02:57 par thibault64 »

ginie

  • Expert
  • *
  • Messages: 660
    • Twitter @ginieb
Incident voix Orange du 14 et 15 mai: bug entre 2 switchs Juniper
« Réponse #1 le: 16 mai 2018 à 10:03:48 »
On sait pourquoi Orange arrive à impacter des appels intra SFR ?

thibault64

  • Expert
  • Abonné Bbox fibre
  • *
  • Messages: 363
  • FTTH 1Gbps/700Mbps - Albi (81)
Incident voix bug entre switchs Juniper
« Réponse #2 le: 16 mai 2018 à 13:06:05 »
On sait pourquoi Orange arrive à impacter des appels intra SFR ?
Oui, très certainement parce que l'abonné SFR appelé par un autre abonné SFR appelant a un numéro Orange porté sur le réseau SFR. De ce fait, l'appel part de chez SFR, transit par Orange, et revient chez SFR. Or, étant donné que le backbone voix d'Orange tousse un peu, cela provoque des échecs..

En effet, lorsque qu'un opérateur (Orange dans ce cas de figure) reçoit du trafic pour un numéro fixe interpersonnel précédemment attribué à un de ses abonnés et porté chez un autre opérateur (SFR dans ce cas de figure) en conservant son numéro de téléphone (portabilité des numéros fixes), l'opérateur cédant (Orange) :
  • achemine l’appel vers l’opérateur preneur (SFR) selon les informations présentes dans la base de données de référence des numéros fixes portés en France Métropolitaine gérée par l’Association de la Portabilité des Numéros Fixes
  • facture à l’opérateur preneur le réacheminement effectué par ses soins vers le réseau de l’opérateur preneur

Source: j'ai été pendant 1 an et demi responsable technique en charge (entre autre) de la portabilité chez un opérateur de VoIP français.

ginie

  • Expert
  • *
  • Messages: 660
    • Twitter @ginieb
Incident voix Orange du 14 et 15 mai: bug entre 2 switchs Juniper
« Réponse #3 le: 16 mai 2018 à 13:14:37 »
J'ai eu le problème en mobile de SFR à SFR et 100m entre les 2, d'où mon interrogation.

thibault64

  • Expert
  • Abonné Bbox fibre
  • *
  • Messages: 363
  • FTTH 1Gbps/700Mbps - Albi (81)
Incident voix Orange du 14 et 15 mai: bug entre 2 switchs Juniper
« Réponse #4 le: 16 mai 2018 à 13:26:34 »
J'ai eu le problème en mobile de SFR à SFR et 100m entre les 2, d'où mon interrogation.
Si je ne m'abuse, le principe de portabilité est le même en mobile. Là dessus, je n'affirme rien car ma spécialité c'est le RTC, la ToIP, et les réseaux IP au sens large (gestion d'AS etc..)

EDIT : j'ai vérifié grâce à des leaks Orange et des docs Free, oui cela fonctionne de la même manière.
« Modifié: 16 mai 2018 à 14:53:54 par thibault64 »

ezivoco_163

  • Abonné Orange Fibre
  • *
  • Messages: 823
  • Toulouse (31)
Incident voix Orange du 14 et 15 mai: bug entre 2 switchs Juniper
« Réponse #5 le: 16 mai 2018 à 14:17:34 »
bonjour, pouvez vous nous en dire plus sur la "portabilité" de ces numéros.

Est que l'on revient à l'origine de chez origine des N° mobile ou l'on avait des plages par opérateur (par exemple je ne me rappelle pas de 06 01 xx xx xx à 06 50 xx xx xx pour orange, 06 51 xx xx xx à 06 80 xx xx xx pour SFR et 06 81 xx xx xx à 06 99 xx xx xx pour Bouygues tel) et que du coup tous les N° portés depuis sont obligatoirement acheminés par l'opérateur d'origine de ces plages ?

rmaunier

  • AS35280 Volterra
  • Expert
  • *
  • Messages: 29
  • Paris (75)
    • Volterra
Incident voix Orange du 14 et 15 mai: bug entre 2 switchs Juniper
« Réponse #6 le: 16 mai 2018 à 14:44:02 »
L'incident d'hier provient d'un bug entre 2 switchs Juniper sur une infra qui supporte une très grosse partie de la voix (et aussi une partie du service TV apparemment..) dans le DC Orange de Val-de-Reuil. Cela a eu pour effet de planté totalement l'infra en question. L'infra de secours à Aubervilliers a été activé mais le transfert de charge a rendu l'infra de secours instable. Voilà en gros ce qui s'est passé.

L'incident d'aujourd'hui provient apparemment de la tentative de repasser sur l'infra nominale.

Source: un ami très bien informé chez Orange
Surement un PB ECC ( ecran clavier chaise ) :) Meme s'il s'agit d'un bug, que la plateforme soit aussi impactée et pendant aussi longtemps c'est que forcement il y a de l'humain dedans :) ( avec surement un soucis d'ingénierie car l'infra de "secours" qui crashe, c'est que bon voila quoi


e-TE

  • Abonné Free fibre
  • *
  • Messages: 1 145
  • Déville-les-Rouen (76)
Incident voix Orange du 14 et 15 mai: bug entre 2 switchs Juniper
« Réponse #7 le: 16 mai 2018 à 14:59:32 »
Si je ne m'abuse, le principe de portabilité est le même en mobile. Là dessus, je n'affirme rien car ma spécialité c'est le RTC, la ToIP, et les réseaux IP au sens large (gestion d'AS etc..)

EDIT : j'ai vérifié grâce à des leaks Orange et des docs Free, oui cela fonctionne de la même manière.
c'est moche comme fonctionnement, mais ca peut se comprendre avec la segmentation d'origine des plages de numéros... mais ca serait peut etre l'occaz de se dire que c'est un système à remettre à plat :p

thibault64

  • Expert
  • Abonné Bbox fibre
  • *
  • Messages: 363
  • FTTH 1Gbps/700Mbps - Albi (81)
Incident voix Orange du 14 et 15 mai: bug entre 2 switchs Juniper
« Réponse #8 le: 16 mai 2018 à 15:07:07 »
bonjour, pouvez vous nous en dire plus sur la "portabilité" de ces numéros.

Est que l'on revient à l'origine de chez origine des N° mobile ou l'on avait des plages par opérateur (par exemple je ne me rappelle pas de 06 01 xx xx xx à 06 50 xx xx xx pour orange, 06 51 xx xx xx à 06 80 xx xx xx pour SFR et 06 81 xx xx xx à 06 99 xx xx xx pour Bouygues tel) et que du coup tous les N° portés depuis sont obligatoirement acheminés par l'opérateur d'origine de ces plages ?
Oui, en fixe ou mobile, l'ARCEP attribue plusieurs blocs de numéros (de 01 à 09) aux opérateurs qui en font la demande et qui justifient leur utilisation.
SFR à par exemple les blocs suivants pour le mobile : 0601 / 06026 / 06027 / 06028 / 06029 / 0603 / 06045 / 06046 / 06047 / 06048 / 06049 / 0609 / 061 / 062 / 0634 / 0635 / 0646 / 07501 / 07502 / 07503 / 07504 / 07508 / 07509 / 07516 / 07526 / 07703 / 07704 / 07713 / 07714 / 077150 / 077151 / 077152 / 077153 / 077154 / 07750 / 07751 / 07752 / 07753 / 07754 / 0776 / 0777 / 0778 / 0779
Comme pour le fixe, la portabilité mobile exige que l'opérateur cédant route l'appel vers l'opérateur prenant (je viens de vérifier sur des docs Orange et Free). Le routage de ces appels se fait au moyen de préfixes de portabilité transparent coté client (car filtré côté opérateurs).

thibault64

  • Expert
  • Abonné Bbox fibre
  • *
  • Messages: 363
  • FTTH 1Gbps/700Mbps - Albi (81)
Incident voix Orange du 14 et 15 mai: bug entre 2 switchs Juniper
« Réponse #9 le: 16 mai 2018 à 15:17:28 »
Surement un PB ECC ( ecran clavier chaise ) :) Meme s'il s'agit d'un bug, que la plateforme soit aussi impactée et pendant aussi longtemps c'est que forcement il y a de l'humain dedans :) ( avec surement un soucis d'ingénierie car l'infra de "secours" qui crashe, c'est que bon voila quoi
C'est aussi mon avis et celui de ma source :D

Après, je ne peux pas trop m'étendre sur les circonstances, juste de donner la principale cause et les principales actions. Disons que dans cette histoire, Orange a dû faire face à la loi de Murphy.. (la conception de l'infra y est prépondérante..)

rmaunier

  • AS35280 Volterra
  • Expert
  • *
  • Messages: 29
  • Paris (75)
    • Volterra
Incident voix Orange du 14 et 15 mai: bug entre 2 switchs Juniper
« Réponse #10 le: 16 mai 2018 à 15:23:25 »
C'est aussi mon avis et celui de ma source :D

Après, je ne peux pas trop m'étendre sur les circonstances, juste de donner la principale cause et les principales actions. Disons que dans cette histoire, Orange a dû faire face à la loi de Murphy.. (la conception de l'infra y est prépondérante..)
J'y crois pas une seconde que 2 sw peuvent autant impacter une infra nationale comme Orange. Bref, je pense que l'info est completement bullshit ou transformée ^^

Hugues

  • AS2027 MilkyWan
  • Modérateur
  • *
  • Messages: 12 424
  • Lyon (69) / St-Bernard (01)
    • Twitter
Incident voix Orange du 14 et 15 mai: bug entre 2 switchs Juniper
« Réponse #11 le: 16 mai 2018 à 15:24:30 »
J'ai des sources internes concordantes, moi j'y crois.