La Fibre

Hébergeurs et opérateurs pro / entreprises => Hébergeurs et opérateurs pro / entreprises => Scaleway Scaleway => Discussion démarrée par: underground78 le 08 février 2019 à 19:44:08

Titre: Coupure 2x864FO Scaleway entre DC2 et DC3
Posté par: underground78 le 08 février 2019 à 19:44:08
Pour ceux qui n'auraient pas suivi, il y a un incident majeur en cours suite à la coupure de très nombreuses fibres entre DC2 et DC3.

(https://lafibre.info/images/online/201802_scaleway_coupure_dc2_dc3_1.jpg)
Titre: Coupure 832fo entre DC2 et DC3
Posté par: e-TE le 08 février 2019 à 20:52:01
ah bah joli coup de pelleteuse xD
Titre: Coupure 832fo entre DC2 et DC3
Posté par: Leon le 08 février 2019 à 20:53:33
C'est quand même dingue, le nombre de réseaux qui ne sont pas si résilients que ça.
45 minutes de coupure totale de réseau pour la majorité des serveurs dédiés de DC2, si j'ai bien compris.

Comment peut-on expliquer ça, sur un réseau qui est censé être totalement redondant et résilient face aux coupures?
Personnellement, je ne me l'explique pas.

La weathermap fait la gueule.

Leon.
Titre: Coupure 832fo entre DC2 et DC3
Posté par: Twister le 08 février 2019 à 21:12:05
Le réseau est en effet redondant, mais on a eu quelques soucis sur certains équipements, la bascule ne s'est pas passé comme prévu.
On va travailler là dessus pour améliorer ça, on a déjà des choses de prévues.

Une fois ces soucis corrigé, il reste les problèmes de capacité des liens, c'est pas si simple d'équilibrer le trafic sur les liens restant :)
Titre: Coupure 832FO Scaleway entre DC2 et DC3
Posté par: vivien le 08 février 2019 à 21:26:21
On peut admirer la transparence et la communication au fil de l'eau :

832 fibres ? Ce ne serait pas un 720 FO plutôt ?


(https://lafibre.info/images/online/201802_scaleway_coupure_dc2_dc3_3.png)
Titre: Coupure 832FO Scaleway entre DC2 et DC3
Posté par: vivien le 08 février 2019 à 21:27:24
Zoom sur le 720 fibres du câble ou plutôt les 60 tubes qui renferment chacun 12 fibres :

(https://lafibre.info/images/online/201802_scaleway_coupure_dc2_dc3_2.jpg)
Titre: Coupure 832FO Scaleway entre DC2 et DC3
Posté par: vivien le 08 février 2019 à 21:28:29
Il ne manque pas un filet vert avertisseur ?

(https://lafibre.info/images/online/201802_scaleway_coupure_dc2_dc3_1.jpg)
Titre: Coupure 832FO Scaleway entre DC2 et DC3
Posté par: Hugues le 08 février 2019 à 22:29:17
Vivien, je crois que c'est un 720 + un 144 qui ont été coupés !
Titre: Coupure 832FO Scaleway entre DC2 et DC3
Posté par: STRAT38 le 08 février 2019 à 22:34:30
Il ne manque pas un filet vert avertisseur ?

Effectivement, pas de filet vert. En plus, la photos ne permet pas de vérifier si les 60 cm de profondeur minimum sont bien respectés.

Peut etre esperer un changement de norme et passer en plus profond.... le vert, c'est les plus haut, donc ceux qui se font couper le plus facilement.
Titre: Coupure 832FO Scaleway entre DC2 et DC3
Posté par: cali le 08 février 2019 à 23:47:07
Effectivement, ça sature.
Titre: Coupure 832FO Scaleway entre DC2 et DC3
Posté par: Twister le 09 février 2019 à 00:00:52
On a éliminé tous les gros points de saturations, ça devrait aller mieux là.
Il faudra attendre la réparations des fibres pour retrouver le routage optimal et la pleine capacité.
Titre: Coupure 832FO Scaleway entre DC2 et DC3
Posté par: underground78 le 09 février 2019 à 00:29:03
Un truc que j'avais pas réalisé et que mikmak m'a expliqué sur IRC c'est qu'une partie des adductions des transitaires/peerings arrivent à DC3 depuis DC2.

Du coup quand un lien DC2 <-> DC3 est coupé, ça réduit la capacité pour les serveurs physiquement localisés à DC2 (ce qui était évident) mais aussi pour ceux de DC3 (ce qui l'était moins si on regarde juste la WM).
Titre: Coupure 832FO Scaleway entre DC2 et DC3
Posté par: vivien le 09 février 2019 à 07:34:41
Un truc que j'avais pas réalisé et que mikmak m'a expliqué sur IRC c'est qu'une partie des adductions des transitaires/peerings arrivent à DC3 depuis DC2.

Du coup quand un lien DC2 <-> DC3 est coupé, ça réduit la capacité pour les serveurs physiquement localisés à DC2 (ce qui était évident) mais aussi pour ceux de DC3 (ce qui l'était moins si on regarde juste la WM).
Si les routeurs sont sur DC3, les peering Scaleway sont sur plusieurs sites : en local à DC3, DC2, TH2,...
Titre: Coupure 2x864FO Scaleway entre DC2 et DC3
Posté par: Nico le 09 février 2019 à 08:12:37
Des photos par les copains qui ont fait une sortie "fibercut" hier soir :

https://twitter.com/InfosReseaux/status/1094014961012142081
https://twitter.com/acontios_net/status/1094008956656250880
https://twitter.com/acontios_net/status/1094014496685862912
https://twitter.com/DorianGaliana/status/1094018550149320704

On parlerait de 2x864FO coupés.
Titre: Coupure 832FO Scaleway entre DC2 et DC3
Posté par: Leon le 09 février 2019 à 08:31:56
Si les routeurs sont sur DC3, les peering Scaleway sont sur plusieurs sites : en local à DC3, DC2, TH2,...
OK, les interco sont sur plusieurs sites.
OK, mais si le site central (DC3) n'a que 2 adductions fibre, que les liens vers l'extérieur sont répartis 50-50% sur chacune des 2 adductions, alors il est 'normal' que 50% des liens tombent quand 1 adduction est totalement coupée. Et ce quelle que soit la localisation des interco avec l'extérieur (DC2, TH2, etc...).

Je me rappelle que Mikmak (et/ou Arnaud) nous avait dit qu'il comptait sur le L3 pour assurer la redondance. Pour l'instant il ne voulait pas faire de redondance avec des chassis optiques (1 seul lien logique L2/L3 sur 2 chemins ou sur une boucle optique), ni au niveau L2 avec de l'Ethernet.

Peut-être que suite à cet incident Online va changer son fusil d'épaule, en introduisant une redondance au niveau L2 ou L1...
Ou peut-être pas...

Autre truc que cet incident nous permet de découvrir, sur la weathermap: quasiment tous les liens de transit/peering autour du 2ieme routeur BB2.DC3 sont tombés. Ca veut dire que quasiment tous les routeurs tiers ne sont pas à DC3, contrairement à ce qu'essayait de nous faire croire Online. Seul Level3 a ses 2 liens maintenus, donc Level3 a certainement des routeurs sur place à DC3, et c'est sans doute le seul.

Leon. 
Titre: Coupure 2x864FO Scaleway entre DC2 et DC3
Posté par: underground78 le 09 février 2019 à 10:25:58
La question c'est pas de savoir si les routeurs de l'opérateur sont sur place, c'est de savoir d'où viennent les fibres qu'ils utilisent. La WM montre juste que pour de nombreux opérateurs il y a une partie des adductions qui viennent de DC2.
Titre: Coupure 2x864FO Scaleway entre DC2 et DC3
Posté par: Leon le 09 février 2019 à 11:03:35
La question c'est pas de savoir si les routeurs de l'opérateur sont sur place, c'est de savoir d'où viennent les fibres qu'ils utilisent. La WM montre juste que pour de nombreux opérateurs il y a une partie des adductions qui viennent de DC2.
Pas d'accord avec toi. La localisation des routeurs et des équipements optiques de l'opérateur tiers est hyper importante.
Si Online ou l'opérateur tiers (Level3) construisent un vrai réseau MAN redondant, et qu'ils ne s'interconnectent ensemble (peering/transit) qu'en local au sein d'un même site (que ce soit DC3 ou un autre datacenter), alors l'interconnexion devrait être robuste à une coupure fibre à un endroit quelconque des MAN.

Au contraire, si le liens de peering/transit passe par un  unique lien MAN (WDM) sans redondance sous jaçente, alors un lien de peering/transit pourra être perdu dès la première coupure fibre. Lien de transit/peering redondé dans le cas d'Online.

Je ne dis pas qu'une solution est meilleure que l'autre, c'est un vrai dilemme entre les 2 solutions, les 2 philosophies:
 * interco au plus simple avec des WDM dédiés non redondés entre 2 datacenter. Et on fait confiance au routage (BGP) pour assurer la résilience.
 * construction d'un réseau MAN redondant et robuste aux coupures, et interco en local uniquement. Plus complexe, plus cher. C'est sans doute la situation de Level3 à DC3.

Et en théorie, la convergence du routage à l'intérieur d'un AS est meilleure, plus rapide qu'entre plusieurs AS.

Leon.
Titre: Coupure 2x864FO Scaleway entre DC2 et DC3
Posté par: vivien le 09 février 2019 à 11:16:54
Sachant que pour plusieurs peer il est impossible d'avoir une redondance ou deux chemins, la solutions pour ce peer distant est de mettre eu équipement (par exemple sur TH2) qui est double aducité à DC3 de façon a ce que perdre un des deux chemins optique ne puisse pas faire perdre de peer.
Titre: Coupure 2x864FO Scaleway entre DC2 et DC3
Posté par: underground78 le 09 février 2019 à 11:19:29
Oui, je n'arrive pas trop à comprendre le raisonnement de Leon. Que l'opérateur ait des équipements actifs ou non sur site, le problème reste toujours l'adduction puisqu'il faut bien que le trafic sorte du DC à un moment donné.

La seule solution est de multiplier les chemins pour les adductions mais on sait tous qu'économiquement ce n'est possible que dans une certaine mesure.
Titre: Coupure 2x864FO Scaleway entre DC2 et DC3
Posté par: vivien le 09 février 2019 à 11:38:55
Leon remarque qu'il y a des saturations en cas de perte d'un unique chemin optique.

Il y a plusieurs type d'architecture :

- Orange : En cas de perte du chemin A le flux passe par le chemin B et il est nécessaire de s'interconnecter sur deux sites distincts pour peerer avec AS3215, même quand le trafic de 10 Gb/s.

- Bouygues : On distingue deux cas :


Dans le cas de Scaleway, il y a beaucoup de peering / transit qui sont eclatés sur les deux routeurs, mais avec une charge qui dépasse 50%. Cela coûte cher de tout dimensionner x2 et l'alternative pourrait être une solution à la Bouygues Telecom pour les liens qui ne peuvent pas être dimensionné x2.

Cela pourrait passer par la mise en place sur TH2 de deux routeurs qui sont chacun connecté à DC3 via deux chemins et avec un dimensionnent qui permet de tout faire passe sur un seul lien.
L’intérêt, c'est que cela permet de faire des maintenances zen.
Titre: Coupure 2x864FO Scaleway entre DC2 et DC3
Posté par: underground78 le 09 février 2019 à 11:44:58
Ce qui revient finalement à avoir plus de capacité sur chaque routeur non ?
Titre: Coupure 2x864FO Scaleway entre DC2 et DC3
Posté par: Leon le 09 février 2019 à 11:55:49
Ce qui revient finalement à avoir plus de capacité sur chaque routeur non ?
Oui, dans la plupart des cas on doit augmenter la capacité des routeurs pour augmenter la résilience d'un MAN, mais pas systématiquement.

Tu peux très bien assurer une redondance de chemins au niveau L1 (optique) ou L2 (Switch ethernet L2/L3) sur un réseau de type MAN, sans pour autant augmenter la capacité des routeurs. Normalement, les ports d'un routeur coutent très cher, donc ça peut être une solution...

Après je ne dis pas que c'est la meilleure solution... car rajouter une couche supplèmentaire (L1 ou L2) ça rajoute de la complexité au réseau... Plus de complexité, donc plus difficile à configurer et maintenir, donc plus facile de faire des erreurs...

Tout ça c'est une histoire de compromis.

En tout cas bon courage aux équipes réseau d'Online. Ce samedi ne va pas être de tout repos.

Leon.
Titre: Coupure 2x864FO Scaleway entre DC2 et DC3
Posté par: underground78 le 09 février 2019 à 11:59:17
Il n'y a pas de miracle de toute façon, soit tu augmentes la capacité sur chaque patte soit tu ajoutes un ou plusieurs pattes à ton réseau. Dans tous les cas c'est un investissement mais j'ai tendance à croire qu'il doit être notablement plus couteux de multiplier les adductions passant par des chemins différents.
Titre: Coupure 2x864FO Scaleway entre DC2 et DC3
Posté par: Optix le 09 février 2019 à 12:59:56
De toutes façons ce sont des cas de force majeure. Le risque sera toujours là quoi qu'on fasse, et je trouve dommage qu'on dépense des milles et des cents pour faire une course à la résilience.

Le problème, selon moi, c'est que c'est au client de faire face à ses responsabilités aussi. S'il a une infra critique et qu'il a voulu économiser en mettant ça dans un seul DC, bah c'est sa merde. Et ça vaut pour n'importe quoi, même pour un modeste site internet : un kimsufi et une dedibox c'est déjà une bonne démarche.

Autrement dit, je peux accepter qu'un DC se plante qq heures, ça peut arriver. C'est à moi de rendre mon infra résiliente, de dépenser un peu plus pour 2 DC différents que d'avoir un seul gros DC où j'ai tout dedans.
Titre: Coupure 2x864FO Scaleway entre DC2 et DC3
Posté par: Anonyme le 09 février 2019 à 15:05:02
Le vrai problème, c'est le "coup de pelleteuse".
C'est plus un problème de Génie Civil, où on devrait tout de même mettre en oeuvre des solutions pour cela n'arrive plus.
J'imagine une ligne EDF a 400 kV prenant un coup de pelleteuse, la pelleteuse apprécierait pas trop,une conduite de gaz pareil.
Avec les configurations actuelles, cela se reproduira indéfiniment, de manière aléatoire.
Il y a t'il une perte de mémoire sur le cheminement de tous ces réseaux ?
Titre: Coupure 2x864FO Scaleway entre DC2 et DC3
Posté par: vivien le 09 février 2019 à 15:49:25
Je te rassure, cela arrive aussi au Gaz.

J'ai été coupé 3 jours de gaz pour cette raison avec presque 0°c dehors c'est pratique.


Pour l’électricité, tu as un exemple sur Une coupure géante de fibre optique à Vélizy (78) coupe l’accès internet d'une centaine de milliers de personnes dans l'Ouest parisien (https://lafibre.info/yvelines/coupure-geante-de-fibre-optique-a-velizy-78/)
Titre: Coupure 2x864FO Scaleway entre DC2 et DC3
Posté par: Leon le 10 février 2019 à 15:16:49
Ca revient au fur et à mesure.
Donc la coupure fibre aura durée 48h.

Pas mal de gens ont du bosser ce week-end sur cet incident...

Leon.
Titre: Coupure 2x864FO Scaleway entre DC2 et DC3
Posté par: fanfouer le 15 février 2019 à 19:10:23
J'imagine une ligne EDF a 400 kV prenant un coup de pelleteuse, la pelleteuse apprécierait pas trop,une conduite de gaz pareil.
je l’imagine mal, il y a 1km400 de ligne 400kv souterraine en France.
Plus de risques en 225kV et inférieur qui sont majoritairement réalisés en technique souterraine de nos jours.

Sur ce type de GC là, des mesures sont prises parce que ca ne se soude pas comme la fibre : fouille à 1m20, enrobage systématique dans le béton et couverture en tole acier aux endroits de faiblre profondeur (pour surpassement d'un ouvrage plus profond par exemple).
https://fibre.wiki/images/d/de/GC_mutualisation2.jpg

Citer
Avec les configurations actuelles, cela se reproduira indéfiniment, de manière aléatoire.
Il y a t'il une perte de mémoire sur le cheminement de tous ces réseaux ?
Oui, il y a une perte de mémoire sur les réseaux anciens, et la connaissance se partage mal.
DT-DICT palie un peu au problème (ce serait invivable sans), mais ne résoud pas tout.
Il faut un gestionnaire unique du sous-sol.

C'est aussi pour ca qu'on cartographie les réseaux existants, ca peut aider.
https://lafibre.info/infrastructure/idee-de-cartographie-de-linfrastructure-de-communication-national/
https://www.openinframap.org