Il y a un truc que je ne comprends pas dans la gestion de ces incidents.
Je vois régulièrement sur la liste FRNOG que les opérateurs clients se posent des questions : "qu'est-ce qu'il se passe?" "Vous êtes impactés également"? C'est anormal. Comment est-il possible que des opérateurs impactés ne sachent pas ce qu'il se passe?
* Normalement, un opérateur sérieux a une foultitude d'outils de monitorings. En ayant accès à des sondes réparties un peu partout, dans tous les réseaux (pas que le sien). En utilisant (en automatique) les looking glass. Avec tous les "traceroute" possible et imaginables dans tous les sens, on arrive à savoir énormèment de choses, et surtout comprendre là où ça sature. Un packet-Loss doit pouvoir être détecté très rapidement (moins d'une minute) avec des sondes, et ne surtout pas attendre de voir les graphes de trafic s'effondrer. Pareil avec un ping qui augmente anormalement. Rien que nous, amateurs, pouvons avoir accès à de telles sondes, via RIPE-ATLAS (certes, impossible de faire du "temps réel" avec ça).
* De même, ça n'est pas aux forums ou aux Mailing-Lists de communiquer. C'est à l'opérateur qui a subi la panne de le faire (TATA ici). Normalement, les gros transitaires sérieux (TATA en est un) ont un système de gestion d'incident performant, avec des gens compétent derrière, en nombre suffisant, et ils informent de l'évolution de l'incident en temps réel, avec une heure prévisionnelle de réparation temporaire / définitive. Vu le chiffre d'affaire énorme de ces opérateurs-mastodontes, c'est parfaitement normal. Les clients de ces transitaires doivent pouvoir suivre l'incident en temps réel.
Est-ce que je me trompe et que je vis dans un monde de bisounours? Comment peut-il y avoir un écart aussi énorme entre la théorie et la réalité? Personnellement, je prends peur à chaque fois que je lis "qu'est-ce qu'il se passe" sur FRNOG. Ca ne rassure pas sur la gestion d'Internet. Ca fait vraiment amateur!
Pour re-router le trafic d'un réseau, il faut agir vite. Sachant que les règles de routage automatique ne fonctionnent pas toujours bien dans ces conditions. Donc si on attends plusieurs heures/jours pour comprendre ce qu'il se passe, ça ne peut pas marcher.
Leon.