Auteur Sujet: Coupure électrique Online DC2 : Des dizaines de switchs HS  (Lu 36515 fois)

0 Membres et 1 Invité sur ce sujet

corrector

  • Invité
Coupure électrique Online DC2 : Des dizaines de switchs HS
« Réponse #24 le: 07 juillet 2013 à 11:23:13 »
Là où je travaille (ingénierie électronique automobile), on fait beaucoup d'études de fiabilité, de sureté de fonctionnement. Donc on travaille beaucoup avec des événements redoutés très très peu probables qu'on essaye de gérer. Et il y a une règle absolue : si dans la conception, on estime qu'un événement est extrèmement improbable, et que l'événement redouté grave a été rendu fortement improbable (<10e-9 défaillance /heure), grâce à des redondances, des mécanismes de sécurité... et bien si cet événement redouté se produit quand même, ne serait-ce qu'une seule fois, c'est qu'il y a une couille dans la conception, c'est aussi simple que ça! Du coup, il faut revoir sa copie. La cause? Soit que les redondance n'en n'étaient pas vraiment (défaillances unitaires non indépendantes entre elles), soit que l'estimation de la défaillance unitaire était beaucoup trop optimiste (fiabilité des groupes ici), soit que les barrières de protections ne couvraient pas tous les cas de défaillance possible.

Bref, je pense que c'est exactement ce que vont faire les équipes d'Online/Iliad Datacenter : plancher en interne et avec leurs équipementiers pour comprendre pourquoi la défaillance a pu se produire alors qu'elle était très très improbable.

En ingénierie, on ne peut pas se contenter de "c'est la faute à pas de chance" ou du "tant pis, il faut espérer que ça ne se reproduise pas".
Oui, bien sûr, il est ultra rare que les événements ultra rares se produisent.

Donc il vaut mieux parier que quand un événement se produit, c'est qu'il n'est pas ultra rare en réalité.

Ne prenez pas tout ce qui est dit pour la réalité, je persuadé que cela ne s'est pas déroulé comme indiqué. Le but est effectivement de rassurer un maximum les clients en mettant en place une histoire qui semble tenir debout.
Quel intérêt de diffuser du bullshit pareil, alors qu'ils savent que les clients sont des pros et qu'ils vont savoir si les infos sont incohérentes?

vivien

  • Administrateur
  • *
  • Messages: 47 086
    • Twitter LaFibre.info
Coupure électrique Online DC2 : Des dizaines de switchs HS
« Réponse #25 le: 07 juillet 2013 à 11:25:57 »
C'est fréquent que les personnes d'astreintes ont deux téléphones chez deux opérateurs différents.

corrector

  • Invité
Coupure électrique Online DC2 : Des dizaines de switchs HS
« Réponse #26 le: 07 juillet 2013 à 11:28:36 »
Oui, mais si le site des èmetteurs mobiles n'est plus alimentée...

Est-ce qu'ils ont des téléphones satellite?

Leon

  • Client SFR sur réseau Numericable
  • Modérateur
  • *
  • Messages: 5 971
Coupure électrique Online DC2 : Des dizaines de switchs HS
« Réponse #27 le: 07 juillet 2013 à 12:34:43 »
Effectivement, s'ils font confiance au tel portable...

Dans les sites très sensibles, il y a des moyens de communication complètement dédiés normalement. Des téléphones filaires partout, sur un réseau téléphonique dédié, le plus simple possible (analogique). Ne surtout pas faire confiance au GSM ou à la VoIP pour des trucs sensibles.
Dans les "salles de contrôle" des installations sensibles (nucléaire, usines, pétrochimie, finance, etc), il n'est pas rare qu'une seule personne ait 2 ou 3 téléphones différents, sur des réseaux différents. C'est pareil sur les lieux sensibles de ces installations : des téléphones filaires, analogiques, robustes, répartis un peu partout où une intervention humaine sensible peut avoir lieux.

On peut installer jusqu'à 3 ou 4 téléphone pour chaque poste:
* 1 ligne interne normale (passant par le commutateur du site)
* 1 ligne France Telecom dédiée (analogique), ne passant pas par le commutateur du site, au cas où le commutateur déconne
* 1 ligne interne de secours, sur un réseau de secours dédié, genre "ligne rouge", avec sa propre numérotation téléphonique, au cas où les 2 ci dessus sont injoignables. Si ce réseau interne relie plusieurs sites, alors il emprunte de préférence des "liaisons louées" complètement séparées du reste. J'ai même vu (dans l'industrie) un tel réseau "très haute disponibilité", transportant de la voix et des données bas débits (transactions financières, ordres de production, commandes), réseau réalisé avec des liaisons louées redondées entre les sites, et des liaisons de secours par satellite (VSAT).
* On peut aussi mettre des téléphones "lignes rouge" qui passent par des lignes satellite dédiées genre Iridium, Inmarsat, ou Thuraya
Je précise que tout ça n'est pas de la fiction, c'est du réel!

Bref, la fiabilité, ça se joue à tous les niveaux. Les opérateurs de Datacenter devraient prendre exemple sur ce qui se fait dans l'industrie sensible. Tous ces problèmes ont été bien étudiés dans l'industrie.

Dans l'incident du DC2 d'ILIAD, ils auraient peut-être pu appliquer la sollution palliative, à savoir redémarrer le groupe électrogène, si la consigne des "experts" (non présents sur place) était parvenue à temps Ce n'est qu'une hypothèse, mais elle me semble plausible.
Citer
10:26:30 Un deuxième groupe électrogène, celui de la chaine A (GE-A), s’arrête en défaut « électronique ».
[...]
11:29:18 Fin d’autonomie batterie des onduleurs de la chaine A. Coupure de l’alimentation ondulée de la salle 103

11:41:23 Remise en service du groupe électrogène GE-A en « marche forcée » (arrêt de son automate, les défauts sont inhibés et ignorés) pour réalimenter la chaine A. L’opération fonctionne, retour de l’énergie dans toutes les salles

Sauf que dans ton milieu, tu as la maitrise de la conception des équipements et/ou tu as un large choix de composants. Idem en aéronautique où on est encore plus sensible à l'évaluation des risques.

En alimentation de type HT pour utilisation Datacenter, on n'a pas beaucoup de choix technologiques : les automates, y'en n'a pas 10000 sur le marché et tous peuvent tomber en panne. Y'a pas grand-chose à redire de l'architecture de Online DC2, les pannes en cascade ça arrivera toujours.
Tu te trompes sur mon métier. Je travaille pour un grand constructeur automobile français, dans le domaine de l'électronique. Et dans de très nombreux cas, pour certains calculateurs spécialisés, nous n'avons le choix qu'entre 2 ou 3 fournisseurs, qui proposent leur solution sur étagère, qu'ils adaptent à nos besoins... Bref, exactement comme un constructeur d'installation industrielle (datacenter y compris).

Je ne suis surtout pas d'accord avec ta dernière phrase : "les pannes en cascade ça arrivera toujours". Clairement, non. Comme nous le disons avec Corrector : si un événement très très improbable arrive, c'est qu'on n'a pas pris toutes les mesures pour qu'il soit si improbable que ça. Si on voit un jour un événement censé arriver à une probabilité de 10e-9/heure, c'est que la probabilité a été très largement sous-estimée. La probabilité théorique de défaillance de 3 groupes sur 6 doit être de cet ordre de grandeur là!

Je sais, ça semble un peu facile pour un oeuil extérieur, ça ressemble à du "yaka fautqu'on", mais j'assume!

Leon.
« Modifié: 07 juillet 2013 à 13:05:14 par leon_m »

BadMax

  • Client Free adsl
  • Expert
  • *
  • Messages: 3 481
  • Malissard (26)
Coupure électrique Online DC2 : Des dizaines de switchs HS
« Réponse #28 le: 07 juillet 2013 à 13:34:18 »

Je ne suis surtout pas d'accord avec ta dernière phrase : "les pannes en cascade ça arrivera toujours". Clairement, non. Comme nous le disons avec Corrector : si un événement très très improbable arrive, c'est qu'on n'a pas pris toutes les mesures pour qu'il soit si improbable que ça. Si on voit un jour un événement censé arriver à une probabilité de 10e-9/heure, c'est que la probabilité a été très largement sous-estimée. La probabilité théorique de défaillance de 3 groupes sur 6 doit être de cet ordre de grandeur là!

Je sais, ça semble un peu facile pour un oeuil extérieur, ça ressemble à du "yaka fautqu'on", mais j'assume!

Leon.

J'ai un oeil "aéronautique" : quand il y a un crash, c'est à cause de pannes en cascade ou pannes multiples. Normalement, chaque élèment pris séparèment est redondant et/ou une procédure de secours existe pour pallier la défaillance totale de cet élèment (exemple: les visus(*1) cockpit foutent le camp sur Airbus -> procédure de ré-démarrage des visus prévue, sondes Pitot(*2) gelées -> on dégèle, etc). Et pourtant il y a des crashs, cf AF447 où les erreurs et pannes se cumulent pour aboutir à un crash. Suffit d'enlever une seule des pannes/erreurs de la liste pour éviter le crash.

Pour revenir au sujet, en aéronautique la génération électrique est secourue par l’existence d'un mode dégradé avec l'alimentation des circuits de commande de vol par une éolienne externe : alim principale par moteurs puis APU (générateur dans la queue de l'avion) et enfin éolienne de secours. Sur Boeing 787 elle a été utilisée lors d'un vol d'essai avec la FAA(*3) : les panneaux de distribution électrique étant en feu, il a fallu basculer sur le secours ultime pour alimenter les commandes de vol (je vous raconte pas la tronche du mec de la FAA à bord de l'avion, il a d'emblée mis la pression à Boeing pour la certification inter-continentale ETOPS).

En terme d'architecture électrique pour un DC, je vois mal déployer des éoliennes en urgence surtout s'il n'y a pas de vent (tiens j'entends corrector sourire) pour alimenter à puissance égale le DC...

EDIT:
(*1) visus = abréviation des équipements d'affichage du cockpit, il y en a 1 par pilote + un écran de secours configurable pour afficher toutes les informations
(*2) Sonde Pitot = sert à mesurer la vitesse de l'air à l'aide d'un fil chauffé. La sonde étant constituée d'un tube, de l'eau peut s'y infiltrer et geler en vol ce qui fait perdre l'information de vitesse de l'air. Dans ce cas, une procédure (connue voir automatique) de dégivrage est déclenchée. Cela ne prend que quelques minutes. Cette information (la vitesse de l'air) est vitale car elle permet de faire en sorte que l'avion reste dans son domaine de vol, c'est-à-dire, ni trop vite, ni trop lentement. L'information de vitesse sol ne peut pas s'y substituer.
(*3) FAA = Federal Aviation Administration, autorité de certification américaine qui délivre les autorisations de vol pour l'aviation civile. Dans le cas du Boeing 787, elle a été critiquée par son laxisme en déléguant certaines taches de certifications jugées non-critiques à des personnels de Boeing (cf histoire des batteries Lithium-ion qui prennent feu)
« Modifié: 07 juillet 2013 à 20:59:38 par BadMax »

corrector

  • Invité
Coupure électrique Online DC2 : Des dizaines de switchs HS
« Réponse #29 le: 07 juillet 2013 à 15:37:04 »
On reparle de Habsheim?  >:( :-[  :-X  :-\  :'(

ldrevon

  • AS43142 Officiel Adeli
  • Expert
  • *
  • Messages: 642
Coupure électrique Online DC2 : Des dizaines de switchs HS
« Réponse #30 le: 09 juillet 2013 à 16:43:48 »
Bonjour,
1) bon Online, ce n'est pas cher donc du coup il ne faut pas pleurer si cela tombe en panne!
On ne peut pas dire beaucoup de mal du malheur des autres mais quand il y a une panne de ce style, cela veut dire que le DC n'est pas bien alimenté et que leurs responsables comptent un peu trop sur la qualité du courant d'E(R)DF... (J'en connais à Lyon qui sont dans le  même cas..)

2)Pour info, nous à Maxnod  (même si on est bcp plus petit que Online..) on coupe le courant tous les début de mois. Il s'agit là de procédure normale que l'on réalise.
Le premier GE doit démarrer en 5 secondes et prendre la totalité de la puissance 15s après
On le laisse tourner 10mn et ensuite bouton d'arrêt d'urgence!
Le deuxième GE démarre dans les 5 secondes qui suivent et prendre la totalité de la puissance 15s après.
On fait cela dans la journée, car si on casse un élèment, il peut être plus rapidement changé (ex au début on a cassé un disjoncteur de 400A bilan 6 heures sur le GE) Effectivement le GE représente un coût de fonctionnement important (300Kw = 1.5K€/24h....)
Cf point  n°1 pbm du pas cher...

3) Si les switchs sont HS c'est soit ils étaient trop vieux (cf point n°1) soit ils n'étaient pas branchés derrière les onduleurs.... pbm du point 4

4) Maintenance? cf point 1....




butler_fr

  • Client Bbox adsl
  • Modérateur
  • *
  • Messages: 3 605
  • FTTH orange
Coupure électrique Online DC2 : Des dizaines de switchs HS
« Réponse #31 le: 09 juillet 2013 à 17:22:09 »
au final en cas de défaillance multiple des groupes (3 d'après ce qui a été dit), la situation aurait été la même!  ::)

par contre la procédure de test me semble pertinente.

vivien

  • Administrateur
  • *
  • Messages: 47 086
    • Twitter LaFibre.info
Coupure électrique Online DC2 : Des dizaines de switchs HS
« Réponse #32 le: 09 juillet 2013 à 17:54:51 »
Moi je ne suis pas persuadé que tout s'est déroulé comme indiqué (je suis même sur du contraire).

Les contradictions entre le discours d'Online d'une part et d'autre part avec EDF et la courbe de la température dans la salle qui montre bien que la clim a été coupée plus de 2 minutes jette un gros doute sur le reste de ce qui est affirmé. Idem sur le fait que la coupure de la chaîne électrique A est arrivée alors que EDF affirmait avoir rétabli la totalité de ses clients.

Cela répond à la question que certains se posent : pourquoi ne pas avoir affecté le groupe qui alimente la clim à la chaîne électrique A ?
Une autre hypothèse c'est que 4 groupes ou plus (sur les 6) étaient HS. Dans ce cas là il est intéressant de savoir pourquoi... Une même cause commune du type la cuve de gazole était vide et donc il fallait se contenter des nourrices intégrées aux groupes ?

Les groupes de DC3 ont une nourrice de 1000 litres de gazole qui se remplit quand elle arrive à 300 litres. Il est probable que le principe soit le même sur DC2. Sur DC3 il y a un double circuit reliés à deux cuves pour alimenter les groupes mais peut-être pas sur DC2  ?

Snickerss

  • Expert Free + Client Bbox fibre FTTH
  • Modérateur
  • *
  • Messages: 4 823
  • Mes paroles n'engagent que moi :)
    • BlueSky
Coupure électrique Online DC2 : Des dizaines de switchs HS
« Réponse #33 le: 09 juillet 2013 à 17:56:14 »
au final en cas de défaillance multiple des groupes (3 d'après ce qui a été dit), la situation aurait été la même!  ::)

par contre la procédure de test me semble pertinente.


Justement, cette défaillance aurait elle eu lieu avec ce genre de test plutôt qu'avec ceux pratiqués par Online ?

butler_fr

  • Client Bbox adsl
  • Modérateur
  • *
  • Messages: 3 605
  • FTTH orange
Coupure électrique Online DC2 : Des dizaines de switchs HS
« Réponse #34 le: 09 juillet 2013 à 18:14:15 »
en théorie normalement non!

après tu es jamais à l'abri d'une panne multiple, par exemple 2 pièces qui cassent coup sur coup, après la probabilité que ça arrive est faible mais cela peut arriver!

@vivien
est ce qu'on peu être sur des dires d'edf?
sinon ça voudrait dire qu'un autre équipement n'a pas fonctionné correctement en plus des GE.
la panne d'un GE supplèmentaire n'explique pas pourquoi le courant n'est pas revenus normalement sur l'arrivée EDF.

Leon

  • Client SFR sur réseau Numericable
  • Modérateur
  • *
  • Messages: 5 971
Coupure électrique Online DC2 : Des dizaines de switchs HS
« Réponse #35 le: 09 juillet 2013 à 20:24:45 »
après tu es jamais à l'abri d'une panne multiple, par exemple 2 pièces qui cassent coup sur coup, après la probabilité que ça arrive est faible mais cela peut arriver!
Non, encore une fois, je ne suis pas d'accord avec ça. Murphy, la loi de "pas de chance" "la panne multiple, ça peut arriver", ou "ça ne se reproduira pas", non, ça n'est pas professionnel. Ce genre d'affirmation doit tout simplement être interdit, dans un monde vraiment professionnel! Sur le papier, il n'est pas rare qu'on nous nous garantisse des taux de défaillances à 10e-8/h ou 10e-9/h, sur ce type d'installation sensible redondante, soit une défaillance de ce type tous les 10 000 ans!!!

Une défaillance multiple annoncée à un tel taux aussi faible ne peut réellement pas arriver si le taux est bien estimé! Jamais, pas du tout. Zéro, nada. Sauf s'il y a un problème de conception quelque part, et que le taux a été mal estimé.

Ici, si chaque groupe a une probabilité de défaillance très faible, et/ou un "mean time between failure" très grand, et que 3 groupes sur 6 défaillent en même temps, alors c'est qu'il y a un gros problème de conception quelque part. Soit au niveau des groupes, soit au niveau de l'architecture globale du système.

Mais la défaillance constatée est aussi peut-être un manque de validation du système global : a-t-il été testé dans toutes les configurations de défaillance possible? La reprise par le groupe de secours de la clim + d'une chaine électrique de serveurs était-elle testée régulièrement?

bon Online, ce n'est pas cher donc du coup il ne faut pas pleurer si cela tombe en panne!
On ne peut pas dire beaucoup de mal du malheur des autres mais quand il y a une panne de ce style, cela veut dire que le DC n'est pas bien alimenté et que leurs responsables comptent un peu trop sur la qualité du courant d'E(R)DF... (J'en connais à Lyon qui sont dans le  même cas..)
Lionel, attention à ne pas trop se moquer des autres. Ca n'est pas toi qui avait subi il y a quelques temps une double coupure d'onduleur (pourtant redondants) lors d'une maintenance?

Pour finir, j'ai vu aussi un datacenter, pourtant de taille honête, qui a commencé avec 1 seul et unique groupe électrogène, et qui se ventait pourtant d'être tier-4:
http://www.datacenter-marilyn.com/

Leon.
« Modifié: 09 juillet 2013 à 20:54:46 par leon_m »