Auteur Sujet: Incendie OVH à Strasbourg: SBG2 complètement détruit. SBG1 détruit à 42%. (Lu 460538 fois)

Leon · « **Réponse #948 le:** 14 avril 2021 à 20:09:20 »

Citation de: vivien le 13 avril 2021 à 18:55:10

Comme pour les accidents d'avion / nucléaire, il y aura de nombreux retours de cet incendie et des adaptations à faire, pas que chez OVH ou électricité de Strasbourg.

Pour moi, il y a une ENORME différence entre l'incendie d'un datacenter 100% privé et les accidents nucléaires ou accidents d'avion. Je m'explique:

Les accidents nucléaires et d'avions sont analysés par des entités neutres : BEA, IRSN. Il y a également toute une législation à laquelle les compagnies aériennes, les constructeurs d'avions, les exploitants de centrales nucléaires publics et privés doivent se plier, pour garantir la transparence des informations partagées.
Et c'est bien normal, on parle quand même de matériel et de procédures qui peuvent mettre en danger la vie de centaines/milliers de personnes, si ils ne sont pas bien conçus.

En comparaison, OVH-Cloud Strasbourg, c'est un datacenter 100% privé, fermé, aucun client n'y mets les pieds. Si OVH a envie de ne rien dire, ou de ne raconter en public que 50% de l'histoire de l'incendie (ce qui est très très probable), alors il est libre de le faire.
OVH et les assurances garderont en interne, en privé, une grosse quantité d'informations essentielles sur cet incendie, c'est certain.
L’opacité, sur les incidents d'un tel datacenter 100% privé, c'est encore pire que sur un datacenter ouvert/neutre (si TH2 cramait par exemple, ou s'il y avait une rupture d'alimentation majeure à Scaleway-Online DC2).

Bref, l'incendie d'OVH fera progresser OVH en interne, c'est certain.
Il aidera également les autres acteurs à se reposer des questions en interne. Mais c'est tout!

Je ne suis vraiment pas certain que des standards évoluent suite à l'analyse d'OVH. Je ne pense pas non plus qu'OVH-Cloud partage une analyse suffisamment détaillée pour qu'elle puisse être utile à d'autres acteurs!
Il ne faut pas confondre un communiqué soit-disant détaillé, mais fortement biaisé, de 2 pages (ce que fera OVH), et un rapport de dizaines/centaines de pages hyper détaillé, neutre, précis et utile, comme peut le faire le BEA pour l'aviation.

Leon.

willemijns · « **Réponse #949 le:** 14 avril 2021 à 20:21:33 »

Citation de: Leon le 14 avril 2021 à 20:09:20

Bref, l'incendie d'OVH fera progresser OVH en interne, c'est certain.

Comme en 2017 ou 2018 ? ^^

doctorrock · « **Réponse #950 le:** 14 avril 2021 à 23:19:55 »

C'est très clair. La data (ainsi que son traitement), tu peux la répartir, et la redonder. Enfin tu peux t'arranger pour que si le lieu A crame entièrement, le lieu B (et C, et D ...) prend le relai, ça s'appelle du déploiement dans l'Internet tout simplement.

vivien · « **Réponse #951 le:** 15 avril 2021 à 08:18:46 »

Nouveau point d'avancement au 14 avril 20h :

Les bulletins précédents :
- 12 avril 2021
- 9 avril 2021
- 6 avril 2021
- 2 avril 2021
- 1er avril 2021
- 31 mars 2021
- 30 mars 2021
- 29 mars 2021
- 28 mars 2021
- 27 mars 2021
- 26 mars 2021
- 25 mars 2021
- 24 mars 2021
- 23 mars 2021
- 22 mars 2021
- 21 mars 2021
- 20 mars 2021
- 19 mars 2021
- 18 mars 2021
- 17 mars 2021
- 16 mars 2021
- 15 mars 2021
- 14 mars 2021
- 13 mars 2021
- 12 mars 2021
- 11 mars 2021
- 10 mars 2021

Vidéos précédentes :
- Vidéo du 5 avril 2021
- Vidéo du 22 mars 2021
- Vidéo du 16 mars 2021
- Vidéo du 11 mars 2021

vivien · « **Réponse #952 le:** 15 avril 2021 à 14:03:56 »

Mise à jour le 15 avril 14h

SBG1 /Salle E > Croix > SBG3

Les premiers serveurs sont rendus aux clients. Désolé pour le retard. C'est un vrai cauchemar. Ce n'est pas terminé, encore une longue journée, mais le process fonctionne. Maintenant, nous pourrons accélérer

chtitux · « **Réponse #953 le:** 16 avril 2021 à 07:59:15 »

Nouveau message d'Oles sur LinkedIn.

Citer

SBG1/E > Croix > SBG3

Update April,14 9pm
new 200 servers were shipped to Floor 5 which is now full. Tomorrow, we start filling Floor 3. Step by step. Yes, it’s slow. Real nightmare.

Update April,14 10pm
5 racks are UP (using internal-rescue). We are coding all the scripts to detect and (re)setup the servers in the racks / vRacks. Example: sometimes eth0 is eth1, and eth1 is eth0, depends on the motherboard, the cables. Nightmare.

Update April,15 2pm
First servers are given back to custs. Sorry for delay. It’s a real nightmare. It’s not done, still long journey but the code works. Now, we will be able to speed up

Si les noms des interfaces réseau changent, c'est que les cartes mères ont été remplacées. Je soupçonne que dans ces cas là, seul le disque dur a été conservé. Parce que quand on change la CM, on doit aussi souvent changer le CPU et la RAM.

C'est également intéressant de voir OVH s'occuper de « (re)setup the servers, sometimes eth0 is eth1 ». Quand je lis ça, je comprends qu'OVH s'occupe de booter le serveur sur le disque, et que si le réseau ne monte pas (si le vrack & Internet sont inversés, c'est attendu), décide de repasser en rescue, monter le système de fichier, changer le nom des interfaces dans /etc/network/interfaces (par exemple pour Debian), puis relancer le serveur sur disque. Au vu de la quantité de serveurs, je comprends qu'ils aient pris le temps d'automatiser ce process. Je me demande si le client doit donner son accord ou si OVH le fait « dans tous les cas ». Monter le système de fichier du client, c'est très intrusif (même si OVH a accès physiquement au disque dur).

Ça donne à réfléchir sur ce que loue OVH (et les autres hébergeurs) aux clients. Finalement, OVH ne donne pas vraiment de "garantie" sur le modèle de CPU/CM/RAM. Et l'élément le plus critique pour le client, c'est son disque dur. On voit ici la force d'AWS, qui a décidé de résoudre le problème :
- la seule « garantie » du matériel, c'est un nombre de cœurs CPU, de fréquence minimale et de Go de RAM
- pour les données à persister, c'est disque dur réseau uniquement (EBS)
- pour les données « locales », il y a parfois un disque physique attaché, mais aucune garantie de récupérer les données (en cas de reboot, les données sont conservées, mais pas en cas d'hibernation de l'instance par exemple).

D'ailleurs, en cas d'incendie/perte partielle d'une Availability Zone chez AWS, le process de « restauration » aurait été beaucoup plus simple:
- les disques distants (EBS) sont répliqués à l'intérieur d'une même AZ. Avec de la chance, les réplicas sont éloignés « physiquement », mais c'est peu probable, AWS indique que la réplication est faite « en cas de problème sur un disque ». Donc des EBS auraient été perdus.
- les snapshots des EBS sont stockés sur S3, donc répliqués sur d'autres AZ. Aucune perte des snapshots
- le matériel est disposable et les images disques et l'émulation/virtualisation hardware sont faites pour supporter un changement du hardware physique (modulo sur le nouveau matériel environ une fois par an). AWS aurait donc dû racker du matériel fonctionnel, mais sans se soucier de la configuration du client (sur quoi bute OVH en ce moment).

Le prix des instances « à la demande » aurait été très élevé, pour forcer les clients à ne plus utiliser l'AZ impactée, mais une fois le nouveau hardware en place, les clients auraient été autonomes.

J'espère que ça permettra à OVH d'explorer cette voie du matériel disposable. Leur offre OpenStack aka /cloud était un pas dans cette direction, mais manifestement, tout le monde n'y est pas encore passé.

vivien · « **Réponse #954 le:** 16 avril 2021 à 08:19:08 »

J'ai déjà eu sur un dédié OVH un changement de CPU forcé par OVH (je ne connais pas la raison) il y a un paquet d'année et j’étais perdant avec le nouveau CPU (de mémoire j'étais à l'origine sur un serveur Celeron 2.0 Ghz et + mais j'avais eu bien plus que 2 Ghz - architecture NetBurst 64bits - et le nouveau CPU était un CPU de plus faible consommation mais aussi moins puissant).

tanuki · « **Réponse #955 le:** 16 avril 2021 à 08:28:28 »

Je me souviens aussi il y a quelques années sur un dédié multi-proc, un des deux est mort et ça à pris quelques messages au support pour le faire changer... Alors que /proc/cpuinfo était clair, mais bon vu que le serveur pingait ça semblait bon pour le support.

netswitch · « **Réponse #956 le:** 16 avril 2021 à 09:49:02 »

Citation de: chtitux le 16 avril 2021 à 07:59:15

J'espère que ça permettra à OVH d'explorer cette voie du matériel disposable. Leur offre OpenStack aka /cloud était un pas dans cette direction, mais manifestement, tout le monde n'y est pas encore passé.

Bha cette voie c'est la voie de la virtualisation et des instances cloud, ils sont bien dedans je pense.

Du coté des serveurs dédié Bare Metal, il y a des cas d'usage où la virtualisation ne convient pas, par exemple :
-quand on doit faire de la virutalisaiton au dessus
-pour un serveur mysql qui prend très cher, la virtualisation induit des limitations et pertes de performances.

chtitux · « **Réponse #957 le:** 16 avril 2021 à 12:54:42 »

Citer

-quand on doit faire de la virtualisation au dessus

Mais l'intérêt de faire de « l'instance à la demande », ça n'est pas justement de ne plus faire de virtualisation ?
Il y a sûrement des cas d'usages, sinon AWS n'aurait pas faire de partenariat avec VMware, mais n'est-ce pas spécifique à de (très) gros clients ?

Citer

-pour un serveur mysql qui prend très cher, la virtualisation induit des limitations et pertes de performances.

C'est là où AWS est très fort : pour les cas d'usages qui ne correspondent pas à de l'EC2 "pur", ils proposent des services managés et performants. RDS pour les bases de données, S3 pour le stockage objet, etc.

OVHcloud y arrive, mais continue de vendre du bare-metal. Parfois, je me dit qu'à la place d'OVH, j'aurai investi dans une super solution de disques réseaux, avec une offre comme les offres « bare metal de AWS » :
- le serveur est dédié, c'est du bare-metal
- les données sur le disque réseau sont persistés
- OVH peut continuer à pratiquer des tarifs très concurrentiels (parce que le bare-metal est un métier qu'ils maîtrisent très bien)
- la complexité est moindre que monter une offre "Cloud" complète

Dans le cas d'un incendie comme celui qu'ils ont subi, ils auraient « juste » eu à racker des serveurs neufs, et les clients auraient « juste » eu à lancer des nouvelles instances avec les images disques des snapshots.

Leon · « **Réponse #958 le:** 16 avril 2021 à 12:56:02 »

Citation de: chtitux le 16 avril 2021 à 07:59:15

D'ailleurs, en cas d'incendie/perte partielle d'une Availability Zone chez AWS, le process de « restauration » aurait été beaucoup plus simple:
- les disques distants (EBS) sont répliqués à l'intérieur d'une même AZ. Avec de la chance, les réplicas sont éloignés « physiquement », mais c'est peu probable, AWS indique que la réplication est faite « en cas de problème sur un disque ». Donc des EBS auraient été perdus.
- les snapshots des EBS sont stockés sur S3, donc répliqués sur d'autres AZ. Aucune perte des snapshots
- le matériel est disposable et les images disques et l'émulation/virtualisation hardware sont faites pour supporter un changement du hardware physique (modulo sur le nouveau matériel environ une fois par an). AWS aurait donc dû racker du matériel fonctionnel, mais sans se soucier de la configuration du client (sur quoi bute OVH en ce moment).

Voilà, c'est là un des gros problèmes chez OVH et d'autres cloud-provider: les clients d'OVH ne savaient pas où étaient stockés les sauvegardes de snapshot, ou alors ils n'avaient pas l'option d'avoir une sauvegarde "hors site" (L'option Veeam backup déportée date de moins de 2 ans).

Espérons qu'après cet incident majeur, tous les acteurs sérieux soient réellement transparents sur la localisation géographique de chaque offre de sauvegarde (bare metal, VPS, public cloud, private cloud); tout en laissant la possibilité au client de choisir, si possible, affin de ne pas renchérir inutilement TOUTES les offres, pour les nombreux clients qui ont des solutions de backup au niveau applicatif, et qui se contentent d'instance jetables. (Instances physiques ou virtuelles, peu importe)

Leon.

netswitch · « **Réponse #959 le:** 16 avril 2021 à 13:13:48 »

Citer

C'est là où AWS est très fort : pour les cas d'usages qui ne correspondent pas à de l'EC2 "pur", ils proposent des services managés et performants. RDS pour les bases de données, S3 pour le stockage objet, etc.

Oui mais il y a une contrainte de couts à prendre en compte...
Exemple concret avec un client qui fait des ventes en ligne événementielles avec un Prestashop qui fait 3500 paniers vendus en quelques minutes, si on doit utiliser des building blocs AWS pour tenir la charge que ça génère on en a pour 5 fois le budget que ça nous coute en le faisant nous même avec des serveurs configurés en direct.

C'est aussi un problème de vouloir de l'abstraction du hardware à tout prix, plus on s'éloigne et monte dans des solutions" haut niveau d'abstraction" plus le rapport cout/performance diminue.
On arrive avec des délires de startups qui ont des solutions Azure à 10.000€ / mois dont elles sont captives alors qu'il y en aurait pour 2000€ / mois avec une infra gérée par un prestataire qui sait ce qu'il fait.

C'est aussi une conséquence de cette abstraction qui fait qu'on a des gens qui se sentent couverts parce qu'ils ont choisi l'option backup sans imaginer que ça puisse être dans le même batiment..
alors que pour d'autres c'est une évidence que si il n'est pas écrit backup off-site c'est naturel que ce soit dans le serveur juste à coté.

Auteur Sujet: Incendie OVH à Strasbourg: SBG2 complètement détruit. SBG1 détruit à 42%. (Lu 460538 fois)

Leon

Incendie OVH à Strasbourg: SBG2 complétement détruit. SBG1 détruit à 50%.

willemijns

Incendie OVH à Strasbourg: SBG2 complétement détruit. SBG1 détruit à 50%.

doctorrock

Incendie OVH à Strasbourg: SBG2 complétement détruit. SBG1 détruit à 50%.

vivien

Incendie OVH à Strasbourg: SBG2 complétement détruit. SBG1 détruit à 50%.

vivien

Incendie OVH à Strasbourg: SBG2 complétement détruit. SBG1 détruit à 50%.

chtitux

Incendie OVH à Strasbourg: SBG2 complétement détruit. SBG1 détruit à 50%.

vivien

Incendie OVH à Strasbourg: SBG2 complétement détruit. SBG1 détruit à 50%.

tanuki

Incendie OVH à Strasbourg: SBG2 complétement détruit. SBG1 détruit à 50%.

netswitch

Incendie OVH à Strasbourg: SBG2 complétement détruit. SBG1 détruit à 50%.

chtitux

Incendie OVH à Strasbourg: SBG2 complétement détruit. SBG1 détruit à 50%.

Leon

Incendie OVH à Strasbourg: SBG2 complétement détruit. SBG1 détruit à 50%.

netswitch

Incendie OVH à Strasbourg: SBG2 complétement détruit. SBG1 détruit à 50%.