J'ai sûrement raté un truc dans l'explication sur le redondance : ils ne mettent qu'une seule alim dans les serveurs mais font du double attachement vers les LEAF et de même des LEAF vers les SPINE...
Ils partent du principe qu'on perd un alim le service impacté bascule sur le serveur 'miroir' du coup pourquoi redonder les liens réseaux d'un serveur ?
C'est une très bonne remarque!
Je pense que le raisonnement est le suivant:
- Perdre 1 alim d'1 serveur, ou toute autre défaillance d'1 serveur, ça n'impacte que un seul serveur.
- Perdre 1 switch "Top of Rack", ça ferait perdre plusieurs dizaines de serveurs si les liens n'étaient pas redondés.
Mais effectivement, il reste un gros "single point of failure" : l'alimentation de la baie.
Ce qui est rigolo, c'est que Scaleway fait exactement l'inverse de InfoManiak!
- redondance d'alimentation (avec 2 sources)
- non redondance des switch top-of-rack
On discutait de la non-redondance des réseaux top-of-rack chez Scaleway ici avec MikMak (désormais CTO de Scaleway).
Online-DC3 reste un datacenter très propre, mais j'ai été surpris par plusieurs choses pendant la visite, et en regardant les photos, je vois d'autres choses étranges.
[...]
* Non redondance des switches de collecte (ou switches de rangée de baie) du réseau "internet". OK, Online n'est pas le seul à appliquer ça, mais ça me surprend. Certes, l'uplink de ces switches vers les routeurs est redondé, mais pas les switches eux-mêmes. Or, la perte d'un switch unique, d'un seul équipement, fera perdre la connexion à des milliers de serveurs. Le plus surprenant c'est que les switches de rangée du RPN, eux, semblent redondés.
Alors la redondance, oui ... et non
J'explique, y a plusieurs points :
1 - le coût (forcèment) : double équipement de collecte, double cablage , double boulot pour les équipes de déploiement, ca aurait forcèment un impact négatif sur nos prix
2 - la simplicité de gestion: oui, c'est p-e un peu tordu mais gérer 1 équipement qui route vers les baies d'access, c'est 100 fois plus simple que gérer tous les pbls que tu vas avoir à gérer une redondance *layer2* parfaite (spanning-tree ? VPC ? MLAG ? Stack ? HSRP ? synchros de conf et j'en passe, tout autant de technos *remplies* de bugs)
3 - les stats : ca fait 6 ans que je gère le réseau Online. En 6 ans, je crois avoir remplacé maximum *2* routeurs de collectes pour défaillance majeure (panne matos ou bug lié au matos), on a bien eu des reboots par moments (bug soft/upgrades), mais dans ce cas, un reboot de 4500x : 7-9 min de coupure, de Nexus 9000 : 4-5 min de coupure et les reboots, c'est rare ... la plupart des routeurs de collecte ont >2 ans d'uptime). Enfin, un remplacement de matos qui tombe en rade, faut compter 1-2h max normalement... (on a tjrs du spare en stock + tech sur site h24)
alors, en pesant le pour et le contre, rajouter 10-20% (je dis ca au pif) au prix de vente de nos machines pour éviter 5 min de coupure 1 fois par an (max), serait-ce bien raisonnable ?
Leon.