Auteur Sujet: Panne électrique majeure chez OVH (sites inacessibles)  (Lu 56797 fois)

0 Membres et 1 Invité sur ce sujet

Leon

  • Client SFR sur réseau Numericable
  • Modérateur
  • *
  • Messages: 5 971
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #48 le: 09 novembre 2017 à 19:43:57 »
Il y a un règle a respecter, c'est N+1, donc si 2 groupes sont en caraffe, ce qui peux arriver avec la loi de Murphy, il en faillait simplement trois, comme pour les clims, c'est le meme principe.
Hein???  :o :o Miky, tu es en train de nous réinventer la définition du N+1! C'est du n'importe quoi, ce que tu racontes.
N+1 n'est pas "LA" règle à respecter comme tu sembles dire. Tu peux avoir plein d'autres architectures de redondance : du 2N, du N+2, du 2x(N+1), etc...
Et puis N+1 n'impose absolument pas d'être robuste à une panne de 2 groupes électrogènes.

Citer
C'est impossible de  planifier une maintenance avec downtime sur une clim ou un groupe, sachant qu'il y a plus de redondance en cas de panne imprévue.
Attention, N+1 est un niveau de sécurité qui n'impose pas le maintien d'une redondance systématique pendant une maintenance. Beaucoup d'architecture N+1 perdent sciemment leur redondance lors d'une maintenance.

Leon.

vivien

  • Administrateur
  • *
  • Messages: 47 079
    • Twitter LaFibre.info
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #49 le: 09 novembre 2017 à 20:30:58 »
L'avantage de ce genre d'incident majeur, c'est que ça montre les SPOF (Single Points Of Failure). Certes, de manière un peu brutale, mais au moins, ça incite sérieusement à corriger.

Il y a des SPOF qu'il est impossible de supprimer. Tous les opérateurs mobiles ont un SPOF : le HLR (base de donnée comportant les informations relatives à tout abonné autorisé à utiliser ce réseau et notamment sa localisation dans le réseau)

Bouygues Telecom et Orange ont déjà eu des bug logiciels qui ont presque entièrement paralysée leur réseau mobile... (SFR je ne suis plus sur de moi). Il y a déja eu un "black-out" de 48h en Norvège à cause d'un problème logiciel sur le HLR.

Malgré toutes les redondance matérielle, un bug logicielle va impacter les différentes systèmes. Chez Orange, la fonction HLR est constituée de 27 machines réparties sur 15 sites. La redondance sert à assurer le service en cas de panne matérielle en triplant chaque machine (Stéphane Richard, PDG Orange, devant la Commission de l'assemblée nationale le 12/07/2012).

La vidéo d'Orange suite à la panne du 6 juillet 2012. C'est un exemple de vulgarisation réussi sur un sujet extrêmement complexe :


Nico

  • Modérateur
  • *
  • Messages: 44 449
  • FTTH 1000/500 sur Paris 15ème (75)
    • @_GaLaK_
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #50 le: 09 novembre 2017 à 20:36:00 »
(SFR je ne suis plus sur de moi)
Aussi mais pas de blackout total (4M clients impactés) sur la période dont je me souviens.

http://www.numerama.com/magazine/30104-sfr-panne.html

miky01

  • Expert. Réseau RESO-LIAin (01)
  • Abonné K-Net
  • *
  • Messages: 3 829
  • Farges (01)
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #51 le: 09 novembre 2017 à 20:46:59 »
Attention, N+1 est un niveau de sécurité qui n'impose pas le maintien d'une redondance systématique pendant une maintenance. Beaucoup d'architecture N+1 perdent sciemment leur redondance lors d'une maintenance.

Leon.

Tout a fait je me suis tres mal exprimé, en voulant dire que N+1 est le strict minimum pour avoir une redondance, et effectivement beaucoup prennent le risque de plus avoir de redondance a chaque maintenance.  Desolé  ;)

Leon

  • Client SFR sur réseau Numericable
  • Modérateur
  • *
  • Messages: 5 971
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #52 le: 09 novembre 2017 à 20:59:21 »
Il y a des SPOF qu'il est impossible de supprimer. Tous les opérateurs mobiles ont un SPOF : le HLR (base de donnée comportant les informations relatives à tout abonné autorisé à utiliser ce réseau et notamment sa localisation dans le réseau)

Bouygues Telecom et Orange ont déjà eu des bug logiciels qui ont presque entièrement paralysée leur réseau mobile... (SFR je ne suis plus sur de moi). Il y a déja eu un "black-out" de 48h en Norvège à cause d'un problème logiciel sur le HLR.

Malgré toutes les redondance matérielle, un bug logicielle va impacter les différentes systèmes.
Je ne connais pas les HLR, ni la complexité de leur implèmentation, mais les SPOF logiciels peuvent clairement être supprimés!
Ca nécessite beaucoup d'énergie de développement / maintenance, ça coute donc très cher, mais c'est à priori faisable. Et j'en parle un peu ici:
Dans un domaine "très haute disponibilité" que je connais, on pousse le vice jusqu'à éliminer au maximum les "défaillances systématiques" (bugs, erreur de conception), en multipliant les fournisseurs : équipements différents, groupes électrogènes et onduleurs de marques différentes, climatisation, routeurs, switches, serveurs de marques différentes, processeurs différents, et softs totalement redondants mais développés par des équipes différentes, avec des méthodes de conception différentes, avec des compilateurs différents, etc... Ca peut aller très loin.
On impose aussi des langages de programmation différents aux différents softs redondants entre eux.
Il faut que l'interface entre les différents systèmes qui travaillent mutuellement, et qui se surveillent mutuellement soit simple, compréhensible, fiable.

C'est appliqué sur des domaines ultra sensibles : militaire, satellites (un satellite c'est 15 ans sans aucune maintenance physique possible), nucléaire, etc...

Savez-vous si ce genre de développement logiciel ultra redondé est appliqué dans le monde des télécoms? Sur des HLR ou autres?

Leon.
« Modifié: 09 novembre 2017 à 21:36:57 par Leon »

Marin

  • Client Bbox vdsl
  • Modérateur
  • *
  • Messages: 2 804
  • 73
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #53 le: 09 novembre 2017 à 21:01:22 »
Il y a des SPOF qu'il est impossible de supprimer. Tous les opérateurs mobiles ont un SPOF : le HLR (base de donnée comportant les informations relatives à tout abonné autorisé à utiliser ce réseau et notamment sa localisation dans le réseau)

Si je ne me trompe pas, avec plusieurs instances qui dupliquent des données sur plusieurs instances qui se répartissent des ranges de SIM différentes, même s'il est en haut de la hiérarchie géographique c'est pas tant un SPOF qu'un routeur au bout d'une grosse fibre.

D'ailleurs un HLR c'est généralement plusieurs boîtiers à minima, il y a la crypto, les bases de données, le frontend/backend, l'admin... C'est pour ça que les équipementiers ont N acronymes équivalents derrière.

vivien

  • Administrateur
  • *
  • Messages: 47 079
    • Twitter LaFibre.info
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #54 le: 09 novembre 2017 à 21:57:30 »
C'est un SPOF dans le fait qu'un pb logiciel peut faire tomber l'intégralité du réseau d'un opérateur.

Cf ce qu'il s'est passé avec Bouygues ou Orange en France, mais il y a de nombreux exemples chaque année à travers le monde.

Je ne sais pas si il est possible d'appliquer ce que dit Léon.

Je sais que Bouygues Telecom (a ou a eu) suite à la panne deux HLR de deux marques différentes, mais je me demande si il est possible de passer de l'un à l'autre facilement (le second ne serait là que en cas de pb grave, genre la Norvège avec un "black-out" de 48h.

La restauration d'un HLR a un étant antérieur c'est plusieurs heures, pour avoir 48h de panne, la remise dans un état antérieur n'a pas du suffire. (il me semble que pour Orange comme Bouygues c'est ce qui a été réalisé. Orage aurait commencé la remise dans un état antérieur à 17h20, si je comprends bien la vidéo)

benoitm76

  • Abonné Orange Fibre
  • *
  • Messages: 134
  • Créteil (94)
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #55 le: 09 novembre 2017 à 21:58:48 »
Ou alors c'est (un peu) lié...

Pas impossible que la perte des connectivités avec les équipements de Strasbourg ai provoquée le "bug" des équipements optiques de Roubaix.

Leon

  • Client SFR sur réseau Numericable
  • Modérateur
  • *
  • Messages: 5 971
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #56 le: 09 novembre 2017 à 22:02:39 »
C'est un SPOF dans le fait qu'un pb logiciel peut faire tomber l'intégralité du réseau d'un opérateur.
Ca veut dire que les serveurs HLR n'emploient pas les méthodes de développement soft redondés / safe dont je parle? Si ces serveurs peuvent avoir autant d'impact, c'est assez surprenant.

(On est un peu HS, mais on déplacera si ça prend trop d'ampleur. La discussion est intéressante. )

Leon.

Marin

  • Client Bbox vdsl
  • Modérateur
  • *
  • Messages: 2 804
  • 73
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #57 le: 09 novembre 2017 à 22:06:39 »
Ca veut dire que les serveurs HLR n'emploient pas les méthodes de développement soft redondés / safe dont je parle? Si ces serveurs peuvent avoir autant d'impact, c'est assez surprenant.

« Des langages de programmation différents aux différents softs redondants entre eux » : clairement pas. Un HLR typique c'est plutôt des montagnes de C qui recollent des bases Oracle entre elles, sur du PowerPC/x86/ARM, pour donner un exemple. Ça doit implèmenter des spécifications fleuves de la 3GPP, y compris pour la communication interne et pour ça je pense pas que des équipementiers se payent le luxe de le faire plusieurs fois, surtout pour ce que ça implique niveau interopérabilité.

e-TE

  • Abonné Free fibre
  • *
  • Messages: 1 145
  • Déville-les-Rouen (76)
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #58 le: 09 novembre 2017 à 22:25:29 »
dans tous les cas, bon courage aux équipes... la nuit risque d'être courte, malgré une journée déjà bien chargé...

Citer
Comment by OVH - Thursday, 09 November 2017, 22:22PM
Il reste :
- 1160 serveurs dédiés
- 200 instances PCI
- 3000 VPS
- 250 hosts PCC

Les serveurs restants sont concernés par les dysfonctionnements des switchs liés aux tâches ci-après :
http://travaux.ovh.net/?do=details&id=28269
http://travaux.ovh.net/?do=details&id=28268
http://travaux.ovh.net/?do=details&id=28267
http://travaux.ovh.net/?do=details&id=28247



edit:
Citer
Il reste :
- 1025 serveurs dédiés
- 150 instances PCI
- 2700 VPS
- 250 hosts PCC
ca continue de se résorber, mais ca semble encore bloqué sur certains points...
« Modifié: 10 novembre 2017 à 00:18:32 par e-TE »

Nao

  • Abonné FAI autre
  • *
  • Messages: 152
Panne électrique majeure chez OVH (sites inacessibles)
« Réponse #59 le: 09 novembre 2017 à 23:05:38 »
@vivien : Il me semble avoir également entendu parler d'une panne similaire chez Free, mais il est bien possible que j'aie confondu avec une panne qui n'a rien à voir avec le HLR... ???
Vous vous focalisez sur la panne électrique à SBG, mais de mon point de vue, la perte de l'intégralité du réseau optique de Roubaix (+Gravelines?) est beaucoup plus inquiétante, et impacte infiniment plus de clients.

Leon.
Disons que le titre du sujet a imposé cette focalisation dans l'instant présent de la panne : "Panne électrique majeure chez OVH (sites inacessibles)"

Mais merci ginie d'avoir reposté les tweets d'Octave Klaba.