La Fibre
Hébergeurs et opérateurs pro / entreprises => Hébergeurs et opérateurs pro / entreprises => OVHcloud => Discussion démarrée par: Amon-Ra le 29 juillet 2015 à 15:51:22
-
grosse panne OVH dans le sens Free => OVH depuis 30 min
le POP de Globalswitch à Clichy est en panne
-
message séparé du sujet sur Windows 10 ;)
je crois que c'est pas juste free!
depuis 10 min j'ai perdu accès à une machine ovh depuis le boulot
et mon smokeping montre aussi une hausse du ping depuis orange
-
ca s'en va et ca revient.
c'est tombé en marche y a 5 minutes, puis là plus rien.
-
c'est tout pété chez eux la visiblement ^^
le gros dédié qui sert de platforme de test pour ma boite est tombé
mon nom de domaine né répond plus
le site travaux.ovh.net qui timeout de temps en temps....
-
Depuis SFR, je joins OVH.com depuis un transitaire (Seabone), et je vais jusqu'en Floride...
$ mtr -rwc100 www.ovh.com
Start: Wed Jul 29 16:03:50 2015
HOST: laptop Loss% Snt Last Avg Best Wrst StDev
1.|-- box 0.0% 100 4.3 4.3 3.4 10.9 1.4
2.|-- 129.120.16.109.rev.sfr.net 0.0% 100 25.1 24.2 22.1 29.6 1.4
3.|-- 193.45.66.86.rev.sfr.net 0.0% 100 23.9 24.2 22.7 27.6 1.1
4.|-- 181.45.66.86.rev.sfr.net 0.0% 100 24.6 26.7 22.9 121.2 11.9
5.|-- v3790.poi1-co-1.gaoland.net 0.0% 100 30.8 27.0 23.3 39.3 2.3
6.|-- 54.247.5.109.rev.sfr.net 0.0% 100 31.8 32.7 29.9 38.9 1.6
7.|-- 213.144.183.194 2.0% 100 29.4 30.9 28.9 39.8 1.7
8.|-- 195.22.199.139 0.0% 100 141.0 144.2 138.0 150.2 2.8
9.|-- 195.22.199.143 0.0% 100 137.6 143.8 137.6 182.7 5.1
10.|-- mia-1-6k.fl.us 0.0% 100 272.9 180.5 139.1 534.0 71.3
11.|-- www.ovh.com 0.0% 100 154.8 144.0 142.1 154.8 1.5
Le réseau OVH semble largement inaccessible, et quand la page d'accueil de l'hébergeur charge, on dirait que le CDN n'arrive même pas à joindre le reste du réseau (page d'erreur 504).
http://travaux.ovh.net/?do=details&id=14176
Le POP de Globalswitch est down. Nous investiguons.
16:03 − Une erreur humaine est à l'origine du probleme. La configuration OSPF a coupé le routeur de GSW.
Le trafic a été repris par TH2 sur Paris.
16:07 − On a des comportements bizarres sur le th2-1-a9 mais pas seulement. Les routes qui sont habituellement annoncés par GSW sont toujours là.
On cherche.
Apparament l'un des routeurs "reflector" (rf-3-a1) n'a pas annoncé à tous les autres routeurs que le routeur GSW est down. Du coup, les routeurs vers GSW sont toujours installés.
On coupe la session BGP vers le rf-3-a1 et th2-1-a9 pour verifier.
Ca fixe. Okey c'est par là.
On coupe toutes les sessions BGP
rf-3-a1#clear ip bgp *
16:13 − Le rf-1-a1 est down avec GSW.
On a fait le reset de rf-3-a1 qui a apparament un bug. Durant quelques minutes on a donc été uniquement sur seulement un RR rf-2-a1.
16:38 − Le reset de rf-3-a1 a fixé le probleme d'annonces qui aurait dû disparaitre lorsque le routeur gsw-1-a9 a été isolé.
Le trafic est revenu à la normal. On a été principalement impacté vers les connexions gerées par gsw-1-a9:
- 50% de Free
- 50% d'Orange
- 30% Telefonica (Backup)
- 50% Google Eurupe
Transit:
- 20G Cogent
- 40G Tata
- 20G Level3
- 10G Telia
Le reste de la backbone continuait à fonctionner normalement.
16:39 − On fait le rollback sur la configuration gsw-1-a9.
On a coupé les sessions BGP avec les PNI et Transit.
On a remis la configuration OSPF.
C'est UP.
On remet les sessions BGP avec les peers.
16:42 − Tout est UP.
-
ça semble un poil mieux...
-
les répercutions chez les voisins : https://status.online.net/index.php?do=details&task_id=353
-
un petit graph depuis le smokeping chez moi ;)
-
c'est re-cassé
-
17:11 − Bonjour,
Nous venons d’avoir un incident sur le routage sur l’un de 2 routeurs de Paris: gsw-1-a9.
L’erreur humaine est à l’origine de la panne: l’un des ingénieurs de l’équipe network (c’est mon équipe ..) a effacé par erreur la configuration OSPF sur le routeur.
Malgré la double confirmation de l’application de la configuration, il a confirmé yes yes ..
des automatismes .. Et donc le routeur gsw-1-a9 est parti dans les choux.
Mais cela tout doit continuer à fonctionner. Sauf que nous avons eu un bug BGP sur le 3eme routeurs reflector,
rf-3-a1 qui n’a pas communiqué au reste de la backbone que gsw-1-a9 est down. rf-2-a1 l’a fait et rf-1-a1 a été down durant la panne.
Du coup la backbone continuait à se comporter comme si le routeur gsw-1-a9 était UP.
On le voyait à travers les loops dans les traceroutes.
Nous avons redémarré toutes les sessions BGP sur rf-3-a1 mais sachant que rf-1-a1 a été en panne avec gsw-1-a9, et donc que seulement rf-2-a1 assurait la synchronisation BGP entre tous les routeurs en Europe, nous avons eu des yoyos dans le réseau en Europe:
ça pouvait pinger ou pas durant 60-120 secondes par routeur.
En suite, tout est revenu puis nous avons remis la configuration sur le routeur gsw-1-a9. La backbone est UP.
Nous sommes sincèrement désolés pour cette panne.
L’erreur humaine peut arriver et la backbone est preuve pour faire face à ce genre de problèmes.
On regarde pour trouver le bug sur nos RR (ASR1002). Puis on va déterrer la hache pour s’occuper des doigts de mes gars ..
En savoir plus:
http://travaux.ovh.net/?do=details&id=14176
Amicalement
Octave
-
de quelle heure date ce msg?
Car chez nous c'est tjs cassé
-
Octave Klaba <oles@ovh.net>
17:11