La Fibre

Hébergeurs et opérateurs pro / entreprises => Hébergeurs et opérateurs pro / entreprises => OVHcloud => Discussion démarrée par: Amon-Ra le 29 juillet 2015 à 15:51:22

Titre: Panne OVH vers Free
Posté par: Amon-Ra le 29 juillet 2015 à 15:51:22: grosse panne OVH dans le sens Free => OVH depuis 30 min
le POP de Globalswitch à Clichy est en panne
Titre: Panne OVH
Posté par: butler_fr le 29 juillet 2015 à 15:56:28: message séparé du sujet sur Windows 10 ;)

je crois que c'est pas juste free!

depuis 10 min j'ai perdu accès à une machine ovh depuis le boulot

et mon smokeping montre aussi une hausse du ping depuis orange
Titre: Panne OVH
Posté par: Phach le 29 juillet 2015 à 16:05:53: ca s'en va et ca revient.
c'est tombé en marche y a 5 minutes, puis là plus rien.
Titre: Panne OVH
Posté par: butler_fr le 29 juillet 2015 à 16:10:00: c'est tout pété chez eux la visiblement ^^

le gros dédié qui sert de platforme de test pour ma boite est tombé

mon nom de domaine né répond plus

le site travaux.ovh.net qui timeout de temps en temps....
Titre: Panne OVH
Posté par: Marin le 29 juillet 2015 à 16:10:41: Depuis SFR, je joins OVH.com depuis un transitaire (Seabone), et je vais jusqu'en Floride...

Code: [Sélectionner]
$ mtr -rwc100 www.ovh.com Start: Wed Jul 29 16:03:50 2015 HOST: laptop Loss% Snt Last Avg Best Wrst StDev 1.|-- box 0.0% 100 4.3 4.3 3.4 10.9 1.4 2.|-- 129.120.16.109.rev.sfr.net 0.0% 100 25.1 24.2 22.1 29.6 1.4 3.|-- 193.45.66.86.rev.sfr.net 0.0% 100 23.9 24.2 22.7 27.6 1.1 4.|-- 181.45.66.86.rev.sfr.net 0.0% 100 24.6 26.7 22.9 121.2 11.9 5.|-- v3790.poi1-co-1.gaoland.net 0.0% 100 30.8 27.0 23.3 39.3 2.3 6.|-- 54.247.5.109.rev.sfr.net 0.0% 100 31.8 32.7 29.9 38.9 1.6 7.|-- 213.144.183.194 2.0% 100 29.4 30.9 28.9 39.8 1.7 8.|-- 195.22.199.139 0.0% 100 141.0 144.2 138.0 150.2 2.8 9.|-- 195.22.199.143 0.0% 100 137.6 143.8 137.6 182.7 5.1 10.|-- mia-1-6k.fl.us 0.0% 100 272.9 180.5 139.1 534.0 71.3 11.|-- www.ovh.com 0.0% 100 154.8 144.0 142.1 154.8 1.5
Le réseau OVH semble largement inaccessible, et quand la page d'accueil de l'hébergeur charge, on dirait que le CDN n'arrive même pas à joindre le reste du réseau (page d'erreur 504).

http://travaux.ovh.net/?do=details&id=14176

Le POP de Globalswitch est down. Nous investiguons.

16:03 − Une erreur humaine est à l'origine du probleme. La configuration OSPF a coupé le routeur de GSW.
Le trafic a été repris par TH2 sur Paris.

16:07 − On a des comportements bizarres sur le th2-1-a9 mais pas seulement. Les routes qui sont habituellement annoncés par GSW sont toujours là.
On cherche.
Apparament l'un des routeurs "reflector" (rf-3-a1) n'a pas annoncé à tous les autres routeurs que le routeur GSW est down. Du coup, les routeurs vers GSW sont toujours installés.
On coupe la session BGP vers le rf-3-a1 et th2-1-a9 pour verifier.
Ca fixe. Okey c'est par là.
On coupe toutes les sessions BGP
rf-3-a1#clear ip bgp *

16:13 − Le rf-1-a1 est down avec GSW.
On a fait le reset de rf-3-a1 qui a apparament un bug. Durant quelques minutes on a donc été uniquement sur seulement un RR rf-2-a1.

16:38 − Le reset de rf-3-a1 a fixé le probleme d'annonces qui aurait dû disparaitre lorsque le routeur gsw-1-a9 a été isolé.

Le trafic est revenu à la normal. On a été principalement impacté vers les connexions gerées par gsw-1-a9:
- 50% de Free
- 50% d'Orange
- 30% Telefonica (Backup)
- 50% Google Eurupe

Transit:
- 20G Cogent
- 40G Tata
- 20G Level3
- 10G Telia

Le reste de la backbone continuait à fonctionner normalement.

16:39 − On fait le rollback sur la configuration gsw-1-a9.
On a coupé les sessions BGP avec les PNI et Transit.
On a remis la configuration OSPF.
C'est UP.
On remet les sessions BGP avec les peers.

16:42 − Tout est UP.
Titre: Panne OVH
Posté par: butler_fr le 29 juillet 2015 à 16:24:02: ça semble un poil mieux...
Titre: Panne OVH
Posté par: Phach le 29 juillet 2015 à 16:31:02: les répercutions chez les voisins : https://status.online.net/index.php?do=details&task_id=353
Titre: Panne OVH
Posté par: butler_fr le 29 juillet 2015 à 16:50:10: un petit graph depuis le smokeping chez moi ;)
Titre: Panne OVH
Posté par: Ludivine le 29 juillet 2015 à 17:09:18: c'est re-cassé
Titre: Panne OVH
Posté par: Phach le 29 juillet 2015 à 17:32:34: 17:11 − Bonjour,
Nous venons d’avoir un incident sur le routage sur l’un de 2 routeurs de Paris: gsw-1-a9.
L’erreur humaine est à l’origine de la panne: l’un des ingénieurs de l’équipe network (c’est mon équipe ..) a effacé par erreur la configuration OSPF sur le routeur.
Malgré la double confirmation de l’application de la configuration, il a confirmé yes yes ..
des automatismes .. Et donc le routeur gsw-1-a9 est parti dans les choux.

Mais cela tout doit continuer à fonctionner. Sauf que nous avons eu un bug BGP sur le 3eme routeurs reflector,
rf-3-a1 qui n’a pas communiqué au reste de la backbone que gsw-1-a9 est down. rf-2-a1 l’a fait et rf-1-a1 a été down durant la panne.
Du coup la backbone continuait à se comporter comme si le routeur gsw-1-a9 était UP.
On le voyait à travers les loops dans les traceroutes.

Nous avons redémarré toutes les sessions BGP sur rf-3-a1 mais sachant que rf-1-a1 a été en panne avec gsw-1-a9, et donc que seulement rf-2-a1 assurait la synchronisation BGP entre tous les routeurs en Europe, nous avons eu des yoyos dans le réseau en Europe:
ça pouvait pinger ou pas durant 60-120 secondes par routeur.

En suite, tout est revenu puis nous avons remis la configuration sur le routeur gsw-1-a9. La backbone est UP.

Nous sommes sincèrement désolés pour cette panne.
L’erreur humaine peut arriver et la backbone est preuve pour faire face à ce genre de problèmes.
On regarde pour trouver le bug sur nos RR (ASR1002). Puis on va déterrer la hache pour s’occuper des doigts de mes gars ..

En savoir plus:
http://travaux.ovh.net/?do=details&id=14176

Amicalement
Octave
Titre: Panne OVH
Posté par: Ludivine le 29 juillet 2015 à 17:34:53: de quelle heure date ce msg?
Car chez nous c'est tjs cassé
Titre: Panne OVH
Posté par: Phach le 29 juillet 2015 à 17:45:41: Octave Klaba <oles@ovh.net>
17:11