Auteur Sujet: Panne OVH vers Free  (Lu 5421 fois)

0 Membres et 1 Invité sur ce sujet

Amon-Ra

  • Expert.
  • Abonné Free fibre
  • *
  • Messages: 604
  • FTTH 1 Gbit/s à Asnières-sur-Seine (92)
Panne OVH vers Free
« le: 29 juillet 2015 à 15:51:22 »
grosse panne OVH dans le sens Free => OVH depuis 30 min
le POP de Globalswitch à Clichy est en panne

butler_fr

  • Client Bbox adsl
  • Modérateur
  • *
  • Messages: 3 607
  • FTTH orange
Panne OVH
« Réponse #1 le: 29 juillet 2015 à 15:56:28 »
message séparé du sujet sur Windows 10 ;)

je crois que c'est pas juste free!

depuis 10 min j'ai perdu accès à une machine ovh depuis le boulot

et mon smokeping montre aussi une hausse du ping depuis orange

Phach

  • Abonné Orange Fibre
  • *
  • Messages: 1 031
  • Hérault (34) - Occitanie
Panne OVH
« Réponse #2 le: 29 juillet 2015 à 16:05:53 »
ca s'en va et ca revient.
c'est tombé en marche y a 5 minutes, puis là plus rien.


butler_fr

  • Client Bbox adsl
  • Modérateur
  • *
  • Messages: 3 607
  • FTTH orange
Panne OVH
« Réponse #3 le: 29 juillet 2015 à 16:10:00 »
c'est tout pété chez eux la visiblement ^^

le gros dédié qui sert de platforme de test pour ma boite est tombé

mon nom de domaine né répond plus

le site travaux.ovh.net qui timeout de temps en temps....

Marin

  • Client Bbox vdsl
  • Modérateur
  • *
  • Messages: 2 804
  • 73
Panne OVH
« Réponse #4 le: 29 juillet 2015 à 16:10:41 »
Depuis SFR, je joins OVH.com depuis un transitaire (Seabone), et je vais jusqu'en Floride...

$ mtr -rwc100 www.ovh.com
Start: Wed Jul 29 16:03:50 2015
HOST: laptop                      Loss%   Snt   Last   Avg  Best  Wrst StDev
  1.|-- box                          0.0%   100    4.3   4.3   3.4  10.9   1.4
  2.|-- 129.120.16.109.rev.sfr.net   0.0%   100   25.1  24.2  22.1  29.6   1.4
  3.|-- 193.45.66.86.rev.sfr.net     0.0%   100   23.9  24.2  22.7  27.6   1.1
  4.|-- 181.45.66.86.rev.sfr.net     0.0%   100   24.6  26.7  22.9 121.2  11.9
  5.|-- v3790.poi1-co-1.gaoland.net  0.0%   100   30.8  27.0  23.3  39.3   2.3
  6.|-- 54.247.5.109.rev.sfr.net     0.0%   100   31.8  32.7  29.9  38.9   1.6
  7.|-- 213.144.183.194              2.0%   100   29.4  30.9  28.9  39.8   1.7
  8.|-- 195.22.199.139               0.0%   100  141.0 144.2 138.0 150.2   2.8
  9.|-- 195.22.199.143               0.0%   100  137.6 143.8 137.6 182.7   5.1
 10.|-- mia-1-6k.fl.us               0.0%   100  272.9 180.5 139.1 534.0  71.3
 11.|-- www.ovh.com                  0.0%   100  154.8 144.0 142.1 154.8   1.5

Le réseau OVH semble largement inaccessible, et quand la page d'accueil de l'hébergeur charge, on dirait que le CDN n'arrive même pas à joindre le reste du réseau (page d'erreur 504).



http://travaux.ovh.net/?do=details&id=14176

Le POP de Globalswitch est down. Nous investiguons.

16:03 − Une erreur humaine est à l'origine du probleme. La configuration OSPF a coupé le routeur de GSW.
Le trafic a été repris par TH2 sur Paris.

16:07 − On a des comportements bizarres sur le th2-1-a9 mais pas seulement. Les routes qui sont habituellement annoncés par GSW sont toujours là.
On cherche.
Apparament l'un des routeurs "reflector" (rf-3-a1) n'a pas annoncé à tous les autres routeurs que le routeur GSW est down. Du coup, les routeurs vers GSW sont toujours installés.
On coupe la session BGP vers le rf-3-a1 et th2-1-a9 pour verifier.
Ca fixe. Okey c'est par là.
On coupe toutes les sessions BGP
rf-3-a1#clear ip bgp *

16:13 − Le rf-1-a1 est down avec GSW.
On a fait le reset de rf-3-a1 qui a apparament un bug. Durant quelques minutes on a donc été uniquement sur seulement un RR rf-2-a1.

16:38 − Le reset de rf-3-a1 a fixé le probleme d'annonces qui aurait dû disparaitre lorsque le routeur gsw-1-a9 a été isolé.

Le trafic est revenu à la normal. On a été principalement impacté vers les connexions gerées par gsw-1-a9:
- 50% de Free
- 50% d'Orange
- 30% Telefonica (Backup)
- 50% Google Eurupe

Transit:
- 20G Cogent
- 40G Tata
- 20G Level3
- 10G Telia

Le reste de la backbone continuait à fonctionner normalement.

16:39 − On fait le rollback sur la configuration gsw-1-a9.
On a coupé les sessions BGP avec les PNI et Transit.
On a remis la configuration OSPF.
C'est UP.
On remet les sessions BGP avec les peers.

16:42 − Tout est UP.
« Modifié: 29 juillet 2015 à 20:21:29 par Marin »

butler_fr

  • Client Bbox adsl
  • Modérateur
  • *
  • Messages: 3 607
  • FTTH orange
Panne OVH
« Réponse #5 le: 29 juillet 2015 à 16:24:02 »
ça semble un poil mieux...

Phach

  • Abonné Orange Fibre
  • *
  • Messages: 1 031
  • Hérault (34) - Occitanie
Panne OVH
« Réponse #6 le: 29 juillet 2015 à 16:31:02 »

butler_fr

  • Client Bbox adsl
  • Modérateur
  • *
  • Messages: 3 607
  • FTTH orange
Panne OVH
« Réponse #7 le: 29 juillet 2015 à 16:50:10 »
un petit graph depuis le smokeping chez moi ;)


Ludivine

  • Ancienne directrice des Opérations K-Net
  • Abonné K-Net
  • *
  • Messages: 512
  • Deauville (14)
Panne OVH
« Réponse #8 le: 29 juillet 2015 à 17:09:18 »
c'est re-cassé

Phach

  • Abonné Orange Fibre
  • *
  • Messages: 1 031
  • Hérault (34) - Occitanie
Panne OVH
« Réponse #9 le: 29 juillet 2015 à 17:32:34 »
17:11 − Bonjour,
Nous venons d’avoir un incident sur le routage sur l’un de 2 routeurs de Paris: gsw-1-a9.
L’erreur humaine est à l’origine de la panne: l’un des ingénieurs de l’équipe network (c’est mon équipe ..) a effacé par erreur la configuration OSPF sur le routeur.
Malgré la double confirmation de l’application de la configuration, il a confirmé yes yes ..
des automatismes .. Et donc le routeur gsw-1-a9 est parti dans les choux.

Mais cela tout doit continuer à fonctionner. Sauf que nous avons eu un bug BGP sur le 3eme routeurs reflector,
rf-3-a1 qui n’a pas communiqué au reste de la backbone que gsw-1-a9 est down. rf-2-a1 l’a fait et rf-1-a1 a été down durant la panne.
Du coup la backbone continuait à se comporter comme si le routeur gsw-1-a9 était UP.
On le voyait à travers les loops dans les traceroutes.

Nous avons redémarré toutes les sessions BGP sur rf-3-a1 mais sachant que rf-1-a1 a été en panne avec gsw-1-a9, et donc que seulement rf-2-a1 assurait la synchronisation BGP entre tous les routeurs en Europe, nous avons eu des yoyos dans le réseau en Europe:
ça pouvait pinger ou pas durant 60-120 secondes par routeur.

En suite, tout est revenu puis nous avons remis la configuration sur le routeur gsw-1-a9. La backbone est UP.

Nous sommes sincèrement désolés pour cette panne.
L’erreur humaine peut arriver et la backbone est preuve pour faire face à ce genre de problèmes.
On regarde pour trouver le bug sur nos RR (ASR1002). Puis on va déterrer la hache pour s’occuper des doigts de mes gars ..

En savoir plus:
http://travaux.ovh.net/?do=details&id=14176

Amicalement
Octave
« Modifié: 29 juillet 2015 à 20:23:22 par Marin »

Ludivine

  • Ancienne directrice des Opérations K-Net
  • Abonné K-Net
  • *
  • Messages: 512
  • Deauville (14)
Panne OVH
« Réponse #10 le: 29 juillet 2015 à 17:34:53 »
de quelle heure date ce msg?
Car chez nous c'est tjs cassé

Phach

  • Abonné Orange Fibre
  • *
  • Messages: 1 031
  • Hérault (34) - Occitanie
Panne OVH
« Réponse #11 le: 29 juillet 2015 à 17:45:41 »
Octave Klaba <oles@ovh.net>
17:11