Auteur Sujet: Incident voix Orange du 14/15 mai: L'élément déclencheur est un bug de QFabric ?  (Lu 11440 fois)

0 Membres et 1 Invité sur ce sujet

BadMax

  • Client Free adsl
  • Modérateur
  • *
  • Messages: 3 327
  • Malissard (26)
Espérons que le même genre de bug n'existe pas sur les APIC d'ACI  ;D (espoir fait vivre...)

Pas besoin des APIC pour fonctionner, ACI c'est un EVPN sur VxLAN piloté par une couche spécifique. Sans les APIC tu ne peux plus gérer la fabric mais elle continue de se gérer toute seule. Avec ACI le problème c'est plutôt d'arriver à lui faire comprendre ce que tu veux faire et de trouver par quel moyen lui faire faire. Tant qu'il ne t'a pas jeté, c'est que ça marche ! Ou alors pas comme tu le voulais ^^

Note pour les non-experts: ACI est le SDN de Cisco pour les réseaux Datacenters, l'acronyme signifie Application Centric Infrastructure car ses contrôleurs ont la capacité d'aller intégrer dans la fabric les équipements Load-Balancer (F5 BigIP), les firewalls (Palo Alto, Checkpoint...) et des hyperviseurs (vSphere, Hyper-V, Openstack).

Il parait que ça été déployé chez le carré rouge, si y'a le même problème que chez Orange, on verra si ça sera la même cause ^^
 

romualdt

  • Client SFR sur réseau Numericable
  • *
  • Messages: 189
  • Guyancourt (78)
Pas besoin des APIC pour fonctionner, ACI c'est un EVPN sur VxLAN piloté par une couche spécifique. Sans les APIC tu ne peux plus gérer la fabric mais elle continue de se gérer toute seule. Avec ACI le problème c'est plutôt d'arriver à lui faire comprendre ce que tu veux faire et de trouver par quel moyen lui faire faire. Tant qu'il ne t'a pas jeté, c'est que ça marche ! Ou alors pas comme tu le voulais ^^

Oui je suis d'accord sur le principe... mais en pratique parfois tu ne vois des choses qu'après expérimentation...
Je verrais bien dans le temps car la montée en charge est pour bientot par chez moi.

vivien

  • Administrateur
  • *
  • Messages: 29 535
    • Twitter LaFibre.info
J'ai du nouveau : La communication en Interne Orange sur cet incident a été très limitée (et pour la communication externe, je ne ferais pas de commentaire).

Comme l'explique bien thibault64, il y a eu un incident majeur sur la QFabric Juniper de DC Orange de Val-de-Reuil : Lundi matin, la coupure du lien d'interconnexion entre un Director Group défectueux et le Director Group encore fonctionnel provoque un redémarrage inattendu de ce dernier et isole le backbone de la Qfabric. Le redémarrage du dernier Director Group encore fonctionnel provoque simultanèment le reboot des Redundant Server Node Group.

Cet incident a une coïncidence temporelle troublante avec l'incident Voix, mais les équipements voix ne sont pas connecté à ce backbone.

Peut-être les investigations montrerons que cet incident sur la QFabric Juniper est lié à l'incident VoIP, mais pour l'instant ce n'est pas l'hypothèse retenue par Orange.

Pour rappel en 2012, pour un incident d'une même gravité (perturbation d'une grande partie des appels voix sur le réseau mobile d'Orange pendant 7h), on avait eu le droit a un post-mortem bien expliqué, accessible au grand public avec un vidéo :



BernflasherBZH

  • Client Free vdsl
  • *
  • Messages: 117
  • Quimper 29000
Voilà ce qu'est Orange quand il y a un pépin, je n'invente rien ! MDR !
Facile de pomper les abonnés aux concurrents, mais quand il y a un problème ... :)

Marin

  • Client Bbox vdsl
  • Modérateur
  • *
  • Messages: 2 740
  • île-de-France
Voilà ce qu'est Orange quand il y a un pépin, je n'invente rien ! MDR !
Facile de pomper les abonnés aux concurrents, mais quand il y a un problème ... :)

Mon chien ne peut pas nager, ça veut dire qu'il faut le remplacer par un dauphin.

vivien

  • Administrateur
  • *
  • Messages: 29 535
    • Twitter LaFibre.info
Ce qui est étonnant, c'est l'absence de post-mortem de l'incident national des 14 et 15 mai.
Une cause de l’absence de post-mortem pourrait être que le bug est aujourd'hui juste contourné et non résolut.

Une hypothèse pourrait être un problème si profond que cela oblige a changer l'infrastructure. Tout ne se corrige pas par logiciel (cf la faille Spectre qui est aujourd'hui juste atténuée mais pas corrigé)

J'ai vu des articles qui ont parlé de l'incident majeur sur la QFabric Juniper de DC Orange de Val-de-Reuil, mais toujours rien d'officiel.
C'est sur que si c'est la coupure du lien d'interconnexion entre un Director Group défectueux et le Director Group encore fonctionnel d'une infra qui n'est pas connecté à la voix qui est la cause de tout, c'est pas très glorieux.

Hugues

  • AS57199 MilkyWan
  • Expert
  • *
  • Messages: 6 456
  • Paris (15ème)
    • MilkyWan
Une cause de l’absence de post-mortem pourrait être que le bug est aujourd'hui juste contourné et non résolut.
Des dernières infos que j'ai, c'est en effet le cas.

vivien

  • Administrateur
  • *
  • Messages: 29 535
    • Twitter LaFibre.info
Incident Voix chez Orange : l’AOTA demande l’ouverture d’une enquête

Suite aux incidents majeurs des 14 et 15 mai dernier, les opérateurs clients des services Voix de l’opérateur Orange n’ont pas reçu d’informations officielles de la part de leur prestataire.

Ces bulletins détaillés après incident, appelés RFO (Reason For Outage), sont essentiels dans la relation entre opérateurs. Ils participent à la compréhension des incidents puis permettent à la communauté des opérateurs de mieux s’organiser pour améliorer la résilience de leurs infrastructures.

La disponibilité des services Voix est essentielle, en particulier pour la connexion des usagers aux services d’urgence. Les heures d’indisponibilité des interconnexions ont pu créer des situations particulièrement délicates dans de nombreux territoires pour les populations en sus du préjudice économique pour les opérateurs et les entreprises : cette situation ne peut de toute évidence pas se reproduire.

L’AOTA a donc demandé au Président de l’ARCEP d’ouvrir une enquête administrative pour permettre de lever les doutes qui entourent cet incident. L’association a également suggéré la création d’un groupe de travail qui pourra réfléchir et agir sous l’égide du régulateur dans l’objectif de simplifier les interconnexions entre opérateurs et la migration des services Voix (services de collecte en particulier).


Source : AOTA, le 21 juin 2018

Hugues

  • AS57199 MilkyWan
  • Expert
  • *
  • Messages: 6 456
  • Paris (15ème)
    • MilkyWan
Le bug n'a pas été corrigé, il n'y aura donc aucun RFO avant résolution complète, certains parlent même d'un changement d'architecture/topologie pour le résoudre.

vivien

  • Administrateur
  • *
  • Messages: 29 535
    • Twitter LaFibre.info
Précision que aujourd'hui il n'y a plus d'impact sur le trafic voix (certains risquent de mal interpréter tes propos)

La solution de contournement n'est toutefois pas pérenne, car elle ne permet pas d'avoir le niveau de redondance souhaité par Orange.

Serguei42b

  • Expert Orange AS3215
  • Client Orange Fibre
  • *
  • Messages: 159
  • Paris 15ème (75) La Fibre Jet Orange
    • Twitter Serguei42b
Lire l’interview de Laurent Benatar Directeur Technique et du SI d'Orange France :
https://www.zdnet.fr/actualites/mega-panne-voix-ce-n-etait-pas-une-panne-affirme-orange-39871371.htm

vivien

  • Administrateur
  • *
  • Messages: 29 535
    • Twitter LaFibre.info
En synthèse :

Je cite Laurent Bénatar, Directeur Technique et du Système Information d'Orange : "c'est un dysfonctionnement provoquant une saturation dans un équipement Oracle qui a touché une fraction des appels. Cette saturation a eu une incidence plus forte qu'on ne l'imaginait et le diagnostic a été difficile à établir. Cela aurait du durer une journée, pas deux"

Un équipement Oracle, c'est très très vague.

Je rappelle que Oracle c'est :
- Logiciels de bases de données : MySQL Server, MySQL Workbench, Oracle Database, Oracle SQL Developer, Oracle TimesTen In-Memory Database et Oracle In-Memory Database Cache
- Logiciels de messagerie électronique : Oracle Communications Unified Communications Suite
- Logiciels de virtualisation : Oracle VM et VirtualBox
- Logiciels Java : Java EE, Java ME, Java SE, JavaFX
- Logiciels de développement : JDeveloper, NetBeans et Oracle Application Express
- Logiciels serveurs d'applications : Oracle GlassFish Server, Oracle iPlanet Web Server et Oracle WebLogic Server

Orange reconnaît qu'il y a pu avoir un impact fort pour les entreprises et les centres d'appels, mais il n'y aura pas de compensation, étant donné que la grande majorité des appels continuait à passer.

 

Mobile View