Auteur Sujet: Facebook / WhatApp HS suite à une suppression des routes BGP de l'internet  (Lu 34306 fois)

0 Membres et 1 Invité sur ce sujet

Optix

  • AS41114 - Expert OrneTHD
  • Abonné Orne THD
  • *
  • Messages: 4 644
  • WOOHOO !
    • OrneTHD
Facebook / WhatApp HS suite à une suppression des routes BGP de l'internet
« Réponse #144 le: 05 octobre 2021 à 16:16:59 »
Oui. Pour ça que c'était malin de d'abord annoncer les préfixes pour que les NS soient joinables et commencent déjà à distribuer les réponses aux résolveurs qui mettent en cache. Ca élimine déjà 1 problème.

Anonyme

  • Invité
Facebook / WhatApp HS suite à une suppression des routes BGP de l'internet
« Réponse #145 le: 05 octobre 2021 à 17:39:11 »
Chez FREE.



https://twitter.com/Free_1337/status/1445366087441428483
C'est le serpent du petit prince.
Les adultes comprendront pas.

Mat753

  • Abonné RED by SFR fibre FttH
  • *
  • Messages: 615
  • Sète
Facebook / WhatApp HS suite à une suppression des routes BGP de l'internet
« Réponse #146 le: 05 octobre 2021 à 21:39:24 »
Fb à peut-etre été victime d'une faille 0 day, c'est pour cela qu'ils aurais temporairement "désactiver" leurs DNS et cie. le temps de patcher tout ça ; bon de toute façon on ne saura jamais la vrai raison de la panne, ils peuvent dire ce qu'ils veulent.
Le timing est étrange, juste qques jours après qu'un employé à fait des révélations  ::)

FloBaoti

  • Abonné MilkyWan
  • *
  • Messages: 1 300
  • 34
Facebook / WhatApp HS suite à une suppression des routes BGP de l'internet
« Réponse #147 le: 05 octobre 2021 à 22:54:54 »
Une faille 0 day sur des routeurs et qui ne concernent qu'eux ? Ok...

Synack

  • AS16080 Rentabiliweb Telecom
  • Expert
  • *
  • Messages: 689

vivien

  • Administrateur
  • *
  • Messages: 47 085
    • Twitter LaFibre.info
Facebook / WhatApp HS suite à une suppression des routes BGP de l'internet
« Réponse #149 le: 06 octobre 2021 à 10:15:32 »
La traduction en Français :

Plus de détails sur la panne de Facebook du 4 octobre
Par Santosh Janardhan

Maintenant que nos plates-formes sont opérationnelles comme d’habitude après la panne d’hier, j’ai pensé qu’il serait utile de partager un peu plus de détails sur ce qui s’est passé et pourquoi – et surtout, comment nous apprenons pour que cela ne se reproduise pas.

Cette panne a été déclenchée par le système qui gère la capacité de notre backbone mondial. Le backbone est le réseau que Facebook a construit pour connecter toutes nos installations informatiques ensemble, qui se compose de dizaines de milliers de kilomètres de câbles à fibre optique traversant le monde et reliant tous nos centres de données.

Ces centres de données se présentent sous différentes formes. Certains sont des bâtiments massifs qui abritent des millions de machines qui stockent des données et exécutent les lourdes charges de calcul qui permettent à nos plates-formes de fonctionner, et d’autres sont des installations plus petites qui connectent notre backbone à l’Internet plus large et aux personnes qui utilisent nos plates-formes.

Lorsque vous ouvrez l’une de nos applications et chargez votre flux ou vos messages, la demande de données de l’application se déplace de votre appareil à l’installation la plus proche, qui communique ensuite directement via réseau backbone vers un centre de données plus grand. C’est là que les informations nécessaires à votre application sont récupérées et traitées, puis renvoyées sur le réseau vers votre téléphone.

Le trafic de données entre toutes ces installations informatiques est géré par des routeurs, qui déterminent où envoyer toutes les données entrantes et sortantes. Et dans le travail quotidien de maintenance de cette infrastructure, nos ingénieurs doivent souvent mettre une partie du backbone hors ligne pour maintenance - peut-être réparer une fibre optique, ajouter plus de capacité ou mettre à jour le logiciel sur le routeur lui-même.

C’était la source de la panne d’hier. Au cours de l’un de ces travaux de maintenance de routine, une commande a été émise dans le but d’évaluer la disponibilité de la capacité du backbone mondiale, qui a involontairement détruit toutes les connexions de notre backbone, déconnectant efficacement les centres de données Facebook à l’échelle mondiale. Nos systèmes sont conçus pour auditer des commandes comme celles-ci afin d’éviter de telles erreurs, mais un bogue dans cet outil d’audit l’a empêché d’arrêter correctement la commande.

Ce changement a entraîné une déconnexion complète entre nos centres de données et Internet. Et cette perte totale de connexion a causé un deuxième problème qui a aggravé les choses.

L’une des tâches effectuées par nos petites installations consiste à répondre aux requêtes DNS. DNS est le carnet d’adresses d’Internet, permettant aux noms Web simples que nous tapons dans les navigateurs d’être traduits en adresses IP de serveur spécifiques. Les réponses DNS sont assurées par des serveurs DNS faisant autorité qui occupent eux-mêmes des adresses IP bien connues, qui à leur tour sont annoncées au reste d’Internet via un autre protocole appelé protocole de passerelle frontalière (BGP).

Pour assurer un fonctionnement fiable, nos serveurs DNS désactivent ces annonces BGP s’ils ne peuvent pas parler à nos centres de données, car il s’agit d’une indication d’une connexion réseau malsaine. Lors de la récente panne, toute le backbone a été retirée de l’exploitation, ce qui a fait que ces emplacements se sont déclarés malsains et ont retirés ces annonces BGP. Le résultat final a été que nos serveurs DNS sont devenus inaccessibles même s’ils étaient encore opérationnels. Cela a rendu impossible pour le reste de l’Internet de trouver nos serveurs.

Tout cela s’est passé très vite. Et alors que nos ingénieurs s’efforçaient de comprendre ce qui se passait et pourquoi, ils ont dû faire face à deux grands obstacles : premièrement, il n’était pas possible d’accéder à nos centres de données par nos moyens normaux parce que leurs réseaux étaient en panne, et deuxièmement, la perte totale de DNS a brisé de nombreux outils internes que nous utilisions normalement pour enquêter et résoudre des pannes comme celle-ci.

Notre accès réseau principal et celui out-of-band était en panne, nous avons donc envoyé des ingénieurs sur site dans les centres de données pour qu'ils déboguent le problème et redémarrent les systèmes. Mais cela a pris du temps, car ces installations sont conçues avec des niveaux élevés de sécurité physique et système à l'esprit. Il est difficile d'y accéder, et une fois à l'intérieur, le matériel et les routeurs sont conçus pour être difficiles à modifier, même lorsque vous y avez physiquement accès. Il a donc fallu plus de temps pour activer les protocoles d'accès sécurisés nécessaires pour que les gens soient sur place et capables de travailler sur les serveurs. Ce n'est qu'alors que nous pourrions confirmer le problème et remettre notre backnone en ligne.

Une fois la connectivité de notre réseau fédérateur restaurée dans les régions de nos centres de données, tout a été rétabli. Mais le problème n'était pas résolu : nous savions que le fait de réactiver nos services d'un seul coup pouvait potentiellement provoquer une nouvelle série de plantages en raison d'une augmentation du trafic. Les centres de données signalaient des baisses de consommation d'énergie de l'ordre de dizaines de mégawatts, et l'inversion soudaine d'une telle baisse de consommation d'énergie pourrait mettre en danger tout, des systèmes électriques aux caches.   

Heureusement, c'est un événement auquel nous sommes bien préparés grâce aux exercices « tempête » que nous organisons depuis longtemps maintenant. Dans un exercice de tempête, nous simulons une panne système majeure en mettant un service, un centre de données ou une région entière hors ligne, en testant sous contrainte toute l'infrastructure et les logiciels impliqués. L'expérience de ces exercices nous a donné la confiance et l'expérience nécessaires pour remettre les choses en ligne et gérer avec soin les charges croissantes. En fin de compte, nos services sont revenus relativement rapidement sans aucune autre panne à l'échelle du système. Et bien que nous n'ayons jamais eu auparavant de tempête simulant la mise hors ligne de notre épine dorsale mondiale, nous chercherons certainement des moyens de simuler des événements comme celui-ci à l'avenir. 

Chaque échec comme celui-ci est une opportunité d'apprendre et de s'améliorer, et il y a beaucoup à apprendre de celui-ci. Après chaque problème, petit ou grand, nous effectuons un processus d'examen approfondi pour comprendre comment nous pouvons rendre nos systèmes plus résilients. Ce processus est déjà en cours. 

Nous avons beaucoup travaillé pour renforcer nos systèmes afin d'empêcher les accès non autorisés, et il était intéressant de voir comment ce renforcement nous ralentissait alors que nous essayions de nous remettre d'une panne causée non pas par une activité malveillante, mais par une erreur de notre propre chef. Je pense qu'un compromis comme celui-ci en vaut la peine - une sécurité quotidienne considérablement accrue par rapport à une récupération plus lente après un événement, espérons-le rare, comme celui-ci. À partir de maintenant, notre travail consiste à renforcer nos tests, nos exercices et notre résilience globale pour nous assurer que des événements comme celui-ci se produisent aussi rarement que possible.


Source : Facebok le 5 octobre 2021

macmonac

  • Abonné Free fibre
  • *
  • Messages: 204
  • DOUVRES LA DÉLIVRANDE (14)
Facebook / WhatApp HS suite à une suppression des routes BGP de l'internet
« Réponse #150 le: 06 octobre 2021 à 10:20:22 »
Une analyse de Bortzmeyer que je n'ai pas encore eu le temps de lire : https://www.bortzmeyer.org/facebook-octobre-2021.html

butler_fr

  • Client Bbox adsl
  • Modérateur
  • *
  • Messages: 3 605
  • FTTH orange
Facebook / WhatApp HS suite à une suppression des routes BGP de l'internet
« Réponse #151 le: 06 octobre 2021 à 13:33:06 »
Je trouve que L'article en question n'apporte pas grand chose de plus par rapport a l'analyse de cloudflare ou du compte rendu de facebook.

Honnêtement je pense que ce type de panne peut arriver a n'importe quel acteur.

vivien

  • Administrateur
  • *
  • Messages: 47 085
    • Twitter LaFibre.info
Facebook / WhatApp HS suite à une suppression des routes BGP de l'internet
« Réponse #152 le: 06 octobre 2021 à 13:46:44 »
Le régulateur du Gabon se nomme Arcep, comme en France, mais il n'y a pas de lien entre les deux Arcep, qui régulent chacun leur pays respectif.

Panne Facebook : Au Gabon, l’Arcep assure avoir travaillé pour un retour à la normale des différents services

Durant près de 7 heures de lundi en fin de journée, un bug mondial a interrompu les réseaux Facebook. Au Gabon, le régulateur des communications électriques a dit avoir travaillé avec Facebook pour réparer cette panne. Son communiqué a enflammé la toile et été tourné en dérision par les internautes gabonais.

Le 4 octobre en fin d’après-midi, les réseaux du groupe Facebook étaient déconnectés. Pendant près de 7 heures chrono, à partir de l’après-midi de lundi, Facebook, Instagram, WhatsApp et Messenger, les deux réseaux sociaux et les deux messageries du géant californien étaient hors service. Ce qui a affecté plusieurs millions d’utilisateurs dans le monde et au Gabon.

«Nous voulons d’abord rassurer les abonnés des différents opérateurs en disant qu’il s’agit d’une coupure mondiale qui impacte tous les continents et non d’une coupure locale», a dit sur les antennes de la télévision nationale, Serge Essongue Ewanpango, un membre du Conseil de régulation de l’Autorité de régulation des communications électroniques et des postes (Arcep).

Mieux, a voulu rassurer Serge Essongue poursuivant sa lecture, «les différents opérateurs et le régulateur sont actuellement à pied d’œuvre pour travailler à un retour à la normale des différents services». Si durant les premières heures de cette coupure, le porte-parole de Facebook indiquait, sur son compte Twitter, que les équipes travaillaient pour un retour à la normale le plus rapidement possible, l’Arcep a pour sa part assuré que les techniciens de ses démembrements travaillaient avec les représentants de Facebook à l’étranger. En clair, a laissé entendre Serge Essongue, durant de longues heures de la nuit du 4 au 5 octobre, les techniciens de l’Arcep ont dû gérer avec Facebook, une crise causée par un bug mondial.

Or, dans la nuit, Facebook a déclaré qu’un «changement dans la configuration» des routeurs du coeur de son réseau (backbone) «qui coordonnent le trafic entre nos data centers a provoqué un problème qui a interrompu les communications. Cela a perturbé le trafic et a eu un effet boule de neige sur la façon dont nos data centers communiquent, mettant tous nos services à l’arrêt». Au terme d’une recherche sur la toile, on note qu’acun autre régulateur national n’a indiqué avoir travaillé avec Facebook sur ses data centers pour la résolution du bug… sauf l’Arcep au Gabon.

L’Arcep moquée par les internautes

Très vite sur la toile mardi matin, les internautes gabonais ont tourné en dérision le communiqué de l’Arcep qui se voulait pourtant sérieux. «Franchement, chapeau au Gabon qui a déployé ses techniciens pour résoudre les problèmes de Facebook», a posté l’un d’eux avant d’ajouter, «les gars de l’Arcep ont fait des heures sup». «Jouer les plaisantins et dire des choses aussi stupides, c’est tout ce qu’on sait faire dans ce pays. Bravo à l’Arcep qui était à pied d’œuvre pour gérer ce bug !», aposté un autre. «L’Arcep peut travailler pour remettre Facebook en marche ? On comprend pourquoi n’importe quel charlatan peut faire prendre aux dirigeants de ce pays des vessies pour des lanternes», a commenté un autre.

Ceci d’autant plus que, indique-t-on, pour rétablir le bug «les ingénieurs de Facebook ont été envoyés dans l’un de ses principaux centres de données américains en Californie pour restaurer le service, ce qui signifie que le correctif ne pouvait pas être effectué à distance». Se confondant en excuses et insistant sur le fait que la panne était indépendante de la volonté des différents opérateurs qui exercent en République gabonaise, Serge Essongue a fini par «conseiller à ceux qui aiment utiliser les réseaux sociaux, ceux-là qui sont uniquement sur WhatsApp de télécharger s’ils ne l’ont pas déjà fait, des réseaux sociaux comme Signal et Telegram».

Un conseil qui n’a d’ailleurs pas laissé indifférents les internautes gabonais. «Le comble de la bêtise, on a atteint et dépassé le point de non-retour. C’est triste pour ce pays», a lâché l’un d’eux.


Source : Gabonreview.com | Actualité du Gabon, le 5 octobre 2021.

Peut-être en lien avec le fait que le pic de requêtes DNS lié à la panne Facebook n'a pas été géré correctement par tous les opérateurs :

Je viens d'avoir des contacts en Cote d'Ivoire via téléphone, plus rien ne marche sur internet.
Pas de playstore, pas de signal/telegram pour ceux qui l'ont,...
Tout semble saturé par des gens qui testent leur accès.

Je sens que la neutralité du net va en prendre un coup suite à cet épisode, certains FAI diront que l'effet à été trop intense et demanderont de se réserver le droit de couper ou de QoSer les sites de tests dans le cas de fortes anomalies de volume.


cali

  • Officiel Ukrainian Resilient Data Network
  • Fédération FDN
  • *
  • Messages: 2 401
    • Ukrainian Resilient Data Network
Facebook / WhatApp HS suite à une suppression des routes BGP de l'internet
« Réponse #153 le: 06 octobre 2021 à 14:07:58 »
Peut-être en lien avec le fait que le pic de requêtes DNS lié à la panne Facebook n'a pas été géré correctement par tous les opérateurs :

Il est dit, mais j'en doute un peu, que les DNS ouverts de Google avaient eu un peu de mal à ce moment là. De nombreux opérateurs peu scrupuleux dans le monde ne se préoccupent pas d'avoir leur résolveur (parce que c'est vraiment très difficile à mettre en place...) et poussent ceux de Google à leurs clients. Ça expliquerait pourquoi beaucoup pouvaient penser que l'Internet ne fonctionnait plus...

Anonyme

  • Invité
Facebook / WhatApp HS suite à une suppression des routes BGP de l'internet
« Réponse #154 le: 06 octobre 2021 à 16:03:23 »
Panne Facebook : Au Gabon, l’Arcep assure avoir travaillé pour un retour à la normale des différents services
Je suis quand même étonné, au Gabon et en côte d'Ivoire les brouteurs fonctionnent bien.
C'est sur qu'avec une panne FB, cela en mets beaucoup au chômage, et des rentrées de devises en berne, les autorités mettent tout en oeuvre.
 ;D ;D

nicoz

  • Abonné RED by SFR fibre FttH
  • *
  • Messages: 63
  • La Vaupalière ( 76 )
Facebook / WhatApp HS suite à une suppression des routes BGP de l'internet
« Réponse #155 le: 06 octobre 2021 à 16:06:50 »
Je suis quand même étonné, au Gabon et en côte d'Ivoire les brouteurs fonctionnent bien.
C'est sur qu'avec une panne FB, cela en mets beaucoup au chômage, et des rentrées de devises en berne, les autorités mettent tout en oeuvre.
 ;D ;D

surtout que les brouteurs utilisent beaucoup whatsapp :)