Auteur Sujet: Les data centers de Googles (Lu 238989 fois)

BadMax · « **Réponse #108 le:** 12 juillet 2015 à 15:16:52 »

Attention, dans un DC, il ne faut pas seulement penser Nord/Sud mais aussi Est/Ouest : il y a aussi des flux serveurs à serveurs.

La différence est de taille: pour permettre un flux Est/Ouest sans passer par les SPINE, il faut que l'architecture logique le permette en s'appuyant sur du TRILL ou par une surcouche VXLAN.

Il y a encore 5 ans, on était limité par le fonctionnement d'Ethernet et du protocole Spanning-tree qui imposait de surdimensionner les uplinks. Depuis, non seulement on a amelioré les debits mais on a aussi traité la façon de mieux les flux en les faisant passer 'u plus court'.

L'architecture décrite par Google est helas trop succinte pour comprendre comment ils ont traité ce point.

Chez Facebook, ils ont ecrit leur propre implementation de TRILL.

kgersen · « **Réponse #109 le:** 12 juillet 2015 à 16:04:45 »

J'attend les détails en août. 'the devil is in the detail' comme on dit.

Je ne suis pas sur que les notions North/South et Upsteam/downsteam aient le même sens dans ce contexte. Ce sont des notions liées au 'monde classique du réseau' (core - distribution - access) que Cisco a bien "brainwasher" tout le monde avec car c'est leur intérêt.

Une des forces de Google justement est de souvent repartir de zéro, rejeter les modèles traditionnels d'un domaine et faire leur propre 'sauce' à partir des blocs technologiques qu'ils ne peuvent faire eux même.

miky01 · « **Réponse #110 le:** 12 juillet 2015 à 16:12:50 »

Le dernier gros DC que j'ai vu, les seveurs sont connetés en fibre mutimode OM4 avec des Cisco, plus efficace que le LAN GBs.

BadMax · « **Réponse #111 le:** 12 juillet 2015 à 16:14:11 »

Depuis la gamme Nexus, il n'y a plus de 'Core - Distrib - Access', sur 9000 on ne parle plus que Spine et Leafs. Sur 7000/5000, on est plus dans la philosophie Google avec Spine / Aggregate / ToR.

Et je suis à peu près certain que tout le monde utilise les memes ASIC, donc peu de difference sur le hard, c'est vraiment sur l'implementation logique qu'on va trouver des écarts.

Il manque aussi le 100G dans les planches Google, ça serait étonnant de ne pas en voir.

ruchard5 · « **Réponse #112 le:** 13 juillet 2015 à 14:36:20 »

Citation de: BadMax le 12 juillet 2015 à 16:14:11

Et je suis à peu près certain que tout le monde utilise les memes ASIC, donc peu de difference sur le hard, c'est vraiment sur l'implementation logique qu'on va trouver des écarts.

Effectivement. Il y a des différences majeur dans l’implèmentation.

Premièrement Google se base sur des ASIC 16 x 40G et les gèrent indépendamment. CAD que un switch Centauri contient 4 asics mais que cela ne fait pas un switch de 64 x 40G, mais 4 switches de 16 x 40 G. C'est la mise en place de la topologie Clos.

Donc, chaque Centauri switch est une enclosure pour 4 switches de 16 x 40 G (ou 64 X 10G).

On voit aussi cela en essayant de comprendre le design des TORs. La seul chose qui est sure c'est que les TOR sont connectées a l'Aggregation (8 x middle blocks) via 2x10GE. Par ASIC. Soit 16 x 10GE = 4 x 40GE sur l'ASIC. Cela laisse 12 x 40 GE sur l'asic qui sont utilise pour connecter les 3 autres asic dans la même enclosure en mesh (voir l'image attachée - de moi).

Finalement, depuis le debut de l'initiative (il y a 10 ans) Google avait besoin de la gestion de mutlipaths qui n'existait pas.

En gros, chaque asic est gérée en fonction de sa position dans l'architecture global (par software) et permet de mettre en place des flows est/ouest a wire speed (pour la mise en place de reseau virtual non-basee sur les vlan definit par l'IEEE (Network Function Virtualization) ou autre features).

BadMax · « **Réponse #113 le:** 13 juillet 2015 à 15:20:48 »

Il est sympa ton schéma, ça me donne des idées...

Cisco ne détaille pas autant le fonctionnement interne de sa gamme Nexus 9300. D'après BRKARC-2222, on sait juste que:
- sur le N9396PX (48x10GbE+12x40GbE), on a 12x40GbE downlink et 12x42GbE uplink : en supposant que le NFE soit composé de 3 ASIC identiques à ceux de Google, ça donne le schéma de gauche.
- sur le N93128Tx (96x1/10GbT+8x40GbE), on a 24x40GbE downlink et 8x42GbE uplink : toujours avec l'hypothèse des memes ASIC, avec 5 ça colle avec une architecture SPINE&LEAF (schéma de droite). Mais du coup, on perd (un peu) sur les capacités Est/ouest interne du switch.

Donnez-leur un composant, intéressant de voir les différentes approches.

ruchard5 · « **Réponse #114 le:** 14 juillet 2015 à 23:18:34 »

Citation de: ruchard5 le 07 juillet 2015 à 10:27:34

Pour ce qui est du compte de serveur, le calcule est plus simple:
64 blocks * 32 switch * 32 ports * 4 * 10 Gbps
64 blocks * 32 * 32 * 4 * 10 Gbps
64 blocks * 4 096 * 10 Gbps
262 144 * 10 Gbps

Donc, on est bien au delà des 100,000 serveurs annoncer, ou me suis-je tromper quelque par?

Oui - je me suis bel et bien trompe

.

Ayant finalement compris le design des TORs avec les 4 asics connecter en mesh, on peut corriger le compte de port en 10G (qui n'est qu'un point d'information, puisque Google a annoncer que les serveur peuvent être en 10 ou 40GE, amis cela nous donne un maximum théorique pour commencer).

64 blocks * 32 switch * 64 ports * 10 Gbps
64 blocks * 32 * 64 * 10 Gbps
64 blocks * 2048 * 10 Gbps
131 072 * 10 Gbps

Ce qui, en laissant quelques ports pour l’interconnexion au Campus / Wan (disons 31 072 x 10G quand même!!!) nous laisse exactement 100 000 serveur - ce que correspond au nombre fournit par Google!

Sans parler de la possibilité de mettre le système a jour (sans évolution du design) avec des asics en 16x100GE...

ruchard5 · « **Réponse #115 le:** 15 juillet 2015 à 08:21:42 »

Citation de: BadMax le 12 juillet 2015 à 15:16:52

Chez Facebook, ils ont ecrit leur propre implementation de TRILL.

En parlant de Facebook, l'illustration [1] de leur plateforme réseau nous permet de comparer le peu de différences entre les implèmentations de Google et Facebook:

Facebook se base sur 48 TOR par POD vers 4 fabric switches connecté a 4 spine planes de 48 switches.
Google se base sur 32 TOR par POD vers 8 fabric switches connecté a 4 spine planes de 64 switches.

A noter que le nombre de POD / fabric switch chez Facebook n'est pas spécifier (mais avec le 6-pack [2] qui est un switch de 128 x 40GE on peut donner un maximum a 64 server pods, moins 4 edge pods = 60).

Les différences majeur sont donc au niveau des TORs et de l'aggregation:

Facebook Over-subscription au niveau des TORs [3] de 1:3 (4x40G uplink pour 12 x40G vers des serveurs en 10G) alors que Google est sur un modele 1:1
Facebook utilise des switches de 48 in / 48 out (max 64 in / 64 out au format 6-pack) pour une bisection de 7.68Tbps (10.24T max) alors que Google a 20Tbps de bi-section sur l'aggregation

[1] Introducing data center fabric, the next-generation Facebook data center network
[2] Introducing “6-pack”: the first open hardware modular switch
[3] Introducing “Wedge” and “FBOSS,” the next steps toward a disaggregated network

ruchard5 · « **Réponse #116 le:** 17 juillet 2015 à 14:11:01 »

Citation de: ruchard5 le 14 juillet 2015 à 23:18:34

Oui - je me suis bel et bien trompe .

Oui, mais non!

L'erreur provient du dessin des TORs qui ne correspond pas a l'architecture définit par Google: 2 x 10GE vers 8 aggregation blocks _par_ asic. Cela fait 16 x 10 GE vers chacune des 4 asics dans chaque enclosure, ce qui nous fait 64 x 10GE (que l'on retrouve a l'aggregation via 256 x 10 GE x 8 middle blocks / 32 TOR = 64 x 10 GE).

Donc, l'agencement des TORs se fait avec:

16 x 10GE South (vers les serveurs)
16 x 10GE North (vers l'aggregation
4 x 40GE East (vers une asic dans l'enclosure)
4 x 40 GE West (vers une autre asic dans l'enclosure)

Ce qui nous donne le schéma suivant:

ruchard5 · « **Réponse #117 le:** 19 juillet 2015 à 17:48:36 »

Petite question concernant le choix du design des switch Google en mode "clos".

Les middles bloc et spine switches (illustration jointes) sont-ils vraiment mieux que le 6-pack de Facebook par exemple (ou d'autre switch classique en 128 x 40 GE)?

Quels sont les avantages et inconvénient d'un telle design?

BadMax · « **Réponse #118 le:** 23 juillet 2015 à 21:39:06 »

La réponse est dans la couche SDN: ton infra physique est capable d'avoir plusieurs topologies virtuelles. La tendance est à l'utilisation de VXLAN, il y a aussi TRILL. L'infra doit donc etre capable de s'adapter à tous les 'sens'/cas de figure des flux.

Dans tous les cas, ce sont des reseaux où le bon vieux spanning-tree en a été banni.

ruchard5 · « **Réponse #119 le:** 26 juillet 2015 à 17:34:49 »

Citation de: BadMax le 23 juillet 2015 à 21:39:06

La réponse est dans la couche SDN: ton infra physique est capable d'avoir plusieurs topologies virtuelles. La tendance est à l'utilisation de VXLAN, il y a aussi TRILL. L'infra doit donc etre capable de s'adapter à tous les 'sens'/cas de figure des flux.

Dans tous les cas, ce sont des reseaux où le bon vieux spanning-tree en a été banni.

Je ne pense pas que TRILL soit une option que Google choisirait, du a la nature de trill [1] (emphasis mine):

Citer

"TRILL switches (RBridges) run a link state protocol amongst themselves. A link state protocol is one in which connectivity is broadcast to all the RBridges, so that each RBridge knows about all the other RBridges, and the connectivity between them"

Je vais pas rechercher ou Amin Vadhat a préciser cela mais un protocole qui fonctionne par broadcast ne peut pas convenir pour des "control freaks" comme Google (control freak dans ce cas est plus un compliment qu'autre chose).

Sinon, pour continuer le fun j'ai fait un petit calcule sur le nombre de path qui existent dans le reseau (au maximum, avec les informations fournit pas Google comme base) le resultat est sans surprise:

@TOR = 32 switches x 64 aggregation bocks x 8 (middle block uplinks) x 2 path x 10GE x 4 asics = 2048 x64 x 10GE = 131072 x 10GE
@Aggregation = 8 middle blocks x 64 aggregation blocks x 64 paths x 4 x 10GE = 512 x 256 x 10GE = 131072 x 10GE
@Spine = 256 spines x 128 paths x 4 x 10GE = 131072 x 10GE

Sans surprise donc on retrouve le même nombre de paths en 10GE a chaque niveau, Google ayant choisit un model sans over-subscription (1:1).

Le modèle avec des paths en hardware plutôt qu'en passant par un crossbar et aussi comprehensible puisque le réseau est 100% deterministic (tout peut être calcule est pre-positionner selon un modèle informatique).

Quesiton: Cela a-t-il une incidence (positive) du point de vue économique?

[1]https://en.wikipedia.org/wiki/TRILL_(computing)