Auteur Sujet: Incident 8 septembre  (Lu 12248 fois)

0 Membres et 1 Invité sur ce sujet

Optix

  • AS41114 - Expert OrneTHD
  • Abonné Orne THD
  • *
  • Messages: 4 644
  • WOOHOO !
    • OrneTHD
Incident 8 septembre
« Réponse #12 le: 09 septembre 2014 à 15:07:33 »

Synack

  • AS16080 Rentabiliweb Telecom
  • Expert
  • *
  • Messages: 689
Incident 8 septembre
« Réponse #13 le: 09 septembre 2014 à 16:01:34 »
cf FRnOG, apparemment un gros problème sur le backbone européen de Tata.

Ca sent la grosse saturation après la coupure d'un chemin majeur ça non ?

Et le retour de Tata :

Kindly note that in the event of ongoing major outage in our network in Europe, we faced another outage in Paris, due to which our capacity between London-Paris was down from approx 20:00 UTC, 8th Sept'14 to 00:15 UTC, 9th Sept'14.

However, Our team balanced traffic at around 21:16 UTC, 8th sep'14 to alleviate congestion.

This lead to congestion on other available capacity in this region, leading to packet loss. Our teams balanced traffic as much as possible during this outage to minimize the impact.

We see normal traffic on our backbones since this outage was restored and most of our customers have pushed traffic back on their transit links with us.

Shinochaz

  • Abonné Bbox fibre
  • *
  • Messages: 1 004
  • FTTH 500/300 sur Vandoeuvre lès Nancy (54)
    • https://djpod.com/thegroovotape
Incident 8 septembre
« Réponse #14 le: 10 septembre 2014 à 11:27:11 »
Lundi dernier, il y a eu une grosse panne Numéricable dans l'Est de la France. Ca serait pas lié ?

Davidarex

  • Abonné FAI autre
  • *
  • Messages: 170
Incident 8 septembre
« Réponse #15 le: 10 septembre 2014 à 12:04:41 »
#AlertePelleteuse ?

buddy

  • Expert
  • Abonné Free fibre
  • *
  • Messages: 15 095
  • Alpes Maritimes (06)
Incident 8 septembre
« Réponse #16 le: 10 septembre 2014 à 21:27:08 »
Lundi dernier, il y a eu une grosse panne Numéricable dans l'Est de la France. Ca serait pas lié ?
Je ne pense pas. De plus, si c'était juste un problème de fibre, étant donné que NC propose ses offres dans toute la France, il doit bien y avoir des chemins redondés / plusieurs trajets possibles etc ...

et le transitaire TATA a annoncé un soucis entre Londres et Paris.

mikmak

  • AS12876 Expert Scaleway
  • Expert
  • *
  • Messages: 177
    • @mmarcha
Incident 8 septembre
« Réponse #17 le: 13 septembre 2014 à 21:42:05 »
En fait TATA etait déjà en mode dégradé depuis qqs jours suite à la perte d'un lien sous-marin Londres->Pays-Bas (ca prend tjrs 3 plombes à réparer ...),
ils ont subit un double effet kiss cool sur la perte d'un lien vers Paris le 08/09 et ils ont galéré pour trouver de la place pour faire passer ailleurs ... au final c'est la réparation de ce 2ème lien qui a résolu effectivement le souci

Mik

Bengelly

  • AS12876 Expert Scaleway
  • Expert
  • *
  • Messages: 297
  • Paris (75)
Incident 8 septembre
« Réponse #18 le: 13 septembre 2014 à 22:18:01 »
En fait TATA etait déjà en mode dégradé depuis qqs jours suite à la perte d'un lien sous-marin Londres->Pays-Bas (ca prend tjrs 3 plombes à réparer ...),

Comme d'habitude, les bateaux de pêche qui laissent trainer leurs filets en profondeur et qui arrache tout sur leur passage. Mêmes causes, mêmes endroits, mêmes effets  :P

Un de mes fournisseurs de wave me disait lors d'une soirée qu'une sorte de fédération des opérateurs Telecoms a l'échelle du parlement EU essayait de mettre en place des accords avec la fédération EU des pêcheurs pour éviter ce genre d'incidents... Est-ce que ça a marché, aucune idée...

@+

vivien

  • Administrateur
  • *
  • Messages: 47 078
    • Twitter LaFibre.info
Incident 8 septembre
« Réponse #19 le: 13 septembre 2014 à 23:37:51 »
Merci pour l'info sur la double panne.

Leon

  • Client SFR sur réseau Numericable
  • Modérateur
  • *
  • Messages: 5 971
Incident 8 septembre
« Réponse #20 le: 14 septembre 2014 à 07:41:04 »
Il y a un truc que je ne comprends pas dans la gestion de ces incidents.
Je vois régulièrement sur la liste FRNOG que les opérateurs clients se posent des questions : "qu'est-ce qu'il se passe?" "Vous êtes impactés également"? C'est anormal. Comment est-il possible que des opérateurs impactés ne sachent pas ce qu'il se passe?

* Normalement, un opérateur sérieux a une foultitude d'outils de monitorings. En ayant accès à des sondes réparties un peu partout, dans tous les réseaux (pas que le sien). En utilisant (en automatique) les looking glass. Avec tous les "traceroute" possible et imaginables dans tous les sens, on arrive à savoir énormèment de choses, et surtout comprendre là où ça sature. Un packet-Loss doit pouvoir être détecté très rapidement (moins d'une minute) avec des sondes, et ne surtout pas attendre de voir les graphes de trafic s'effondrer. Pareil avec un ping qui augmente anormalement. Rien que nous, amateurs, pouvons avoir accès à de telles sondes, via RIPE-ATLAS (certes, impossible de faire du "temps réel" avec ça).

* De même, ça n'est pas aux forums ou aux Mailing-Lists de communiquer. C'est à l'opérateur qui a subi la panne de le faire (TATA ici). Normalement, les gros transitaires sérieux (TATA en est un) ont un système de gestion d'incident performant, avec des gens compétent derrière, en nombre suffisant, et ils informent de l'évolution de l'incident en temps réel, avec une heure prévisionnelle de réparation temporaire / définitive. Vu le chiffre d'affaire énorme de ces opérateurs-mastodontes, c'est parfaitement normal. Les clients de ces transitaires doivent pouvoir suivre l'incident en temps réel.

Est-ce que je me trompe et que je vis dans un monde de bisounours? Comment peut-il y avoir un écart aussi énorme entre la théorie et la réalité? Personnellement, je prends peur à chaque fois que je lis "qu'est-ce qu'il se passe" sur FRNOG. Ca ne rassure pas sur la gestion d'Internet. Ca fait vraiment amateur!

Pour re-router le trafic d'un réseau, il faut agir vite. Sachant que les règles de routage automatique ne fonctionnent pas toujours bien dans ces conditions. Donc si on attends plusieurs heures/jours pour comprendre ce qu'il se passe, ça ne peut pas marcher.

Leon.

Nico

  • Modérateur
  • *
  • Messages: 44 448
  • FTTH 1000/500 sur Paris 15ème (75)
    • @_GaLaK_
Incident 8 septembre
« Réponse #21 le: 14 septembre 2014 à 07:54:15 »
Plusieurs choses :
- souvent le but premier des messages est d'identifier si c'est un incident isolé ou pas
- quand ça demande "qu'est-ce qu'il se passe", c'est plus pour une coupure qu'une saturation ou autre, et quand qqn demande ça c'est qu'il a bien détecté qqch mais cherche à trouver d'où ça vient
- tu n'es pas toujours en direct avec l'opérateur qui a le soucis, il peut vite y avoir 1-2 intermédiaires, compliquant la remontée d'info lors d'une panne

Accessoirement dans une grosse boîte celui qui a l'info de son fournisseur concernant une panne n'est pas forcement en contact avec celui qui monitore certaines choses pour autre chose que de la gestion d'incident (NOC).

Pour illustrer mon dernier point, il y a surement eu des clients qui avaient les strates suivantes :
- le mainteneur de l'opérateur d'infra
- l'opérateur d'infra
- les opérateurs qui ont la moitié du câble en IRU
- un opérateur qui va allumer du WDM dessus
- un opérateur qui va acheter une wave

Donc chacun est dépendant de celui du dessus pour avoir l'info concernant la coupure, je te laisse imaginer la cata !

vivien

  • Administrateur
  • *
  • Messages: 47 078
    • Twitter LaFibre.info
Incident 8 septembre
« Réponse #22 le: 14 septembre 2014 à 08:06:12 »
Autre chose, quand tu as un lien qui coupe, on va prendre le cas d'un opérateur qui prend une location de wave vers ASM-IX : tu ne sais pas :

- si c'est ton routeur
- si c'est le brassage sous ta responsabilité
- si c'est la fibre de ton opérateur
- si c'est à l'autre bout un problème chez AMS-IX

Avant d'ouvrir des incidents partout, se renseigner permet souvent de trouver le fautif.

Leon

  • Client SFR sur réseau Numericable
  • Modérateur
  • *
  • Messages: 5 971
Incident 8 septembre
« Réponse #23 le: 14 septembre 2014 à 08:07:30 »
- tu n'es pas toujours en direct avec l'opérateur qui a le soucis, il peut vite y avoir 1-2 intermédiaires, compliquant la remontée d'info lors d'une panne
Ici, on parle de l'incident TATA. Or, Bouygues est un gros client de TATA, en direct, sans aucun intermédiaire.

Citer
Accessoirement dans une grosse boîte celui qui a l'info de son fournisseur concernant une panne n'est pas forcement en contact avec celui qui monitore certaines choses pour autre chose que de la gestion d'incident (NOC).
Là, je n'ai pas compris. Le NOC d'un opérateur a forcèment accès EN DIRECT aux informations des fournisseurs, et communique forcèment EN DIRECT (ou via le support) avec les clients (les clients pro de Bouygues par exemple). Et c'est forcèment le NOC qui MONITORE tout ça, que ce soit monitorer le routage, les infrastructures, les équipements, la téléphonie fixe, mobile, etc... Et le NOC, chez les gros opérateurs, comprends des gens qui monitorent le routage, d'autres qui monitorent les infrastructures (Layer 1), et ils communiquent tous ensemble en temps réel. Ils sont normalement rodés pour gérer les situations de crise en temps réel. C'est pour ça qu'on voit de grandes salles de contrôle avec des écrans géants de partout, et avec des ilots organisés par compétence. Bouygues et TATA sont forcèment organisés comme ça (que ça soit dans une salle ou plusieurs salles, peu importe).

C'est comme la gestion du réseau électrique français RTE : dans le centre des opérations, plusieurs corps de métier travaillent main dans la main pour réagir en temps réel, et c'est parfaitement rodé, l'information circule très vite.

Leon.