Auteur Sujet: Les data centers de Googles  (Lu 231778 fois)

0 Membres et 1 Invité sur ce sujet

BadMax

  • Client Free adsl
  • Expert
  • *
  • Messages: 3 476
  • Malissard (26)
Les data centers de Googles
« Réponse #24 le: 31 mai 2013 à 09:02:22 »
C'est pas tellement la problématique du nombre qui est gênante. La question est plutôt à quel débit entre les serveurs ?

S'il faut garantir du 10Gb, voir même du "simple" 1gb en tout point, ça devient un peu plus coton.


ruchard5

  • Expert
  • Abonné Free adsl
  • *
  • Messages: 115
Les data centers de Googles
« Réponse #25 le: 31 mai 2013 à 09:35:48 »
Les deux sont liée, non?

Par example, si tu garantis 10 Mbps WAN par serveur (1%), avec 10,000 serveur tu as un WAN  de 100,000 Mbps -> 100G. Si tu as 125,000 machines dans les même conditions, comment tu architectecture un réseau pour 1,250,000 Mbps -> 1250G? Avec combien de switch et port 10G?

Dans le document [1] et via Google Research [2] on sait que les racks sont connectés a des TOR (Top-of-Rack switch), eux même connecté a un cluster switch. Mais c'est après le cluster switch (CS) que les choses deviennent intéressantes (même si au niveau TOR-CS il reste des questions sur la redondance, l’agrégation de liens, ou même le nombre de rack par TOR).

Google parle alors d'interconnect fabric [2], et il faut recherche un pour voir ce que cela implique - Google n'utilisant pas de topology de type butterfly [3] mais des topologies avancée de type flattened butterfly ou dragon fly [4].

Le but de ses topologies est d'utiliser des switchs avec une grande quantité de port (high radix, 128 x 10GE) pour simplifier l’interconnexion horizontal (de CS a CS) et vertical (de CS au cœur de réseau WAN).

[1]

[2] http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/fr//pubs/archive/36863.pdf
[3] http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/fr//pubs/archive/36740.pdf
[4] http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/fr//pubs/archive/34926.pdf
« Modifié: 31 mai 2013 à 10:17:56 par ruchard5 »

BadMax

  • Client Free adsl
  • Expert
  • *
  • Messages: 3 476
  • Malissard (26)
Les data centers de Googles
« Réponse #26 le: 31 mai 2013 à 10:24:35 »
C'est plus simple de gérer du WAN que du LAN. Si tu brides à 10Mb par serveur, un seul serveur ne pourra jamais saturer un uplink 1Gb. De plus en WAN, tu n'as pas un seul et unique point de sortie mais plusieurs avec chacun des liens 10Gb en agrégat, voire du 40Gb et du 100Gb vu les moyens de Google. Tu auras plus le problème de trouver des peerings à de tels débits que de gérer des saturations sur ton réseau.

Ton archi ressemble à ça :
 - par baie : un ou plusieurs switches suivant la densité de serveurs et les besoins en redondance, les "Top-of-Rack". Ces switches seront de type à configuration fixe en 1U ou 2U
 - en fin de rangée (soit d'un seul coté soit des deux cotés) : tu récupéres les uplinks des switches ToR sur un ou deux switches modulaires de type chassis mais on peut aussi faire avec du "fixe"
 - tu regroupes tes rangées par zone vers plusieurs switches modulaires. Tu peux t'arreter là et t'en servir de coeur de réseau ou remonter encore vers un niveau au-dessus

Pour le type de liens à utiliser (1Gb, 10Gb, n x 1Gb, n x 10Gb, 40Gb, etc), tu fais en fonction du taux de contention et des burst possibles. Si tu n'as que 10Mb à garantir, c'est "facile". 1Gb ça devient plus dur.

ruchard5

  • Expert
  • Abonné Free adsl
  • *
  • Messages: 115
Les data centers de Googles
« Réponse #27 le: 31 mai 2013 à 12:15:58 »
Google a 2 WAN: la partie ISP (connection vers leurs PoPs et points de peering) et la partie Interne pour la communication entre Data Centre (et entre clusters).

Cotée ISP Google est présent sur 71 point d’échange public [1] avec 1 971Gbps en IPv4 et 1 207Gbps disponible via IPv6 [2] (mais je ne doute pas que les réseaux IPv4 et IPv6 ne soient superposé), sachant qu'ils font aussi beaucoup de peering privée (via 77 facilities) on voit quand même l’échelle de leur partie ISP (qui représentait 6.4% du traffic internet total en 2010 [3])

Par contre, en interne a un data centre, il faut beaucoup plus que 10 Mbps puisque Google repose sur d’énormes cluster hautes performance (plusieurs milliers de machines) , et que les serveurs de type GFS sont connectés avec 2 voir 4 x 1 GE (et c'est pas pour la redondance mais bien pour les flux).



[1] https://www.peeringdb.com/private/participant_view.php?id=433&peerParticipantsPublics_mOrder=Sorter_speed&peerParticipantsPublics_mDir=DESC
[2] https://docs.google.com/spreadsheet/ccc?key=0Ah50T8rsbU3rdF9BMjlpRzhLSTg5bDBPc1llUVlXcGc&usp=sharing
[3] http://ddos.arbornetworks.com/2010/10/google-breaks-traffic-record/
[4] http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/de//archive/gfs-sosp2003.pdf

vivien

  • Administrateur
  • *
  • Messages: 52 508
    • Bluesky LaFibre.info
Les data centers de Googles
« Réponse #28 le: 31 mai 2013 à 13:56:01 »
Regardez sur la photo ci-dessous en zoomant : on voit bien la présence de 4 ports 1 Gb/s cuivre par serveur :


BadMax

  • Client Free adsl
  • Expert
  • *
  • Messages: 3 476
  • Malissard (26)
Les data centers de Googles
« Réponse #29 le: 31 mai 2013 à 14:48:03 »
En fait, on voit pleins de détails sur cette dernière :
  • les serveurs n'ont pas de boitiers
  • 4 connexions Gigabit (2x 2) avec des cables non-blindes (les connecteurs RJ-45 sont transparents)
  • ports USB inutilisés
  • 1x switch Gigabit 48 ports par rack
  • 2x onduleurs APC Back-UPS CS (pour les switches je pense)

Et amène des questions : où sont les uplinks des switches ?! pas de prise à main à distance ? à quoi servent les blocs d'alimentations tout en haut qui ont des interfaces RJ-45 ? des STS ?

BadMax

  • Client Free adsl
  • Expert
  • *
  • Messages: 3 476
  • Malissard (26)
Les data centers de Googles
« Réponse #30 le: 31 mai 2013 à 16:11:01 »
Je viens de voir que la distribution électrique est en triphasée :
 - des étiquettes Bleu, Rouge et Jaune indiquent la phase
 - chaque PDU est étiqueté pour indiquer quelle prise utilise quelle phase
 - tout en haut, au-dessus des armoires et des passages de cables, on retrouve ces couleurs sur les cables sortant d'armoires électriques de distribution (avec un petit panneau de disjoncteurs juste en-dessous).

kgersen

  • Modérateur
  • Abonné Orange Fibre
  • *
  • Messages: 9 687
  • Paris (75)
Les data centers de Googles
« Réponse #31 le: 31 mai 2013 à 19:21:08 »
En fait, on voit pleins de détails sur cette dernière :
  • les serveurs n'ont pas de boitiers
  • 4 connexions Gigabit (2x 2) avec des cables non-blindes (les connecteurs RJ-45 sont transparents)
  • ports USB inutilisés
  • 1x switch Gigabit 48 ports par rack
  • 2x onduleurs APC Back-UPS CS (pour les switches je pense)

Et amène des questions : où sont les uplinks des switches ?! pas de prise à main à distance ? à quoi servent les blocs d'alimentations tout en haut qui ont des interfaces RJ-45 ? des STS ?

Oui curieux pas d'uplink sur les switches. Photo prise en cours d'installation peut-etre ?

Le brassage est bizarre aussi:
je compte 4 switch 48 ports pour 3 baies de 14 "elements" (serveur+disques). Chaque element a 4 ports.
Je pensais qu'ils brassaient 1 element vers les 4 switchs mais a priori c'est pas le cas si on regarde la couleur des cables. voir les jaunes du premier rack par exemple: a priori les 4 ports arrivent au meme switch ... c'est curieux non ?

Autre question, les 'elements' ont donc 2 parties, en bas le cpu (ou les cpu?), les 4 ports Giga et a priori 2 ports SATA (cables plats oranges). En theorie on peut mettre jusqu'a 15 disques par port SATA mais la disons plutot 4 ou 5 (donc 8 ou 10 disques en haut)
Donc un element c'est en fait 2 serveurs avec chacun 2 ports ethernet et un port SATA ou c'est plus compliqué que ca.

car 4 ports pour un serveur ca fait beaucoup d'autant qu'ils brassent les 4 ports sur le meme switch...ou c'est pour avoir du burst a 4 Gb par serveur  et donc par disque...dans ce cas on qu'un seul cpu et 2 ports SATA dessus et 8 ou 10 disques derriere.

ou la photo est bidon pour embrouiller les chinois :p

Leon

  • Abonné Bbox fibre
  • Modérateur
  • *
  • Messages: 6 922
Les data centers de Googles
« Réponse #32 le: 31 mai 2013 à 19:30:25 »
Et amène des questions : où sont les uplinks des switches ?! pas de prise à main à distance ? à quoi servent les blocs d'alimentations tout en haut qui ont des interfaces RJ-45 ? des STS ?
Uplink des switches : certains switch ont leur connexion d'uplink à l'arrière, à côté de l'alimentation. Ici, on voit aussi de simples onduleurs certainement pour les switches.

Pour la prise en main à distance, désormais des serveurs le gèrent sans avoir besoin d'une carte réseau supplèmentaire.

Ce que tu appelle le bloc d'alimentation n'en n'est sans doute pas un, vu qu'il est alimenté par un câble tout petit. Je pense plutôt à un petit boitier de gestion, de mesure (température courant). Ou alors la gestion de la clim (ventilateur, débit). Ou alors une alim 48V pour un équipement 48V...
[EDIT]Après vérification, on voit sur la photo suivante qu'il y a 1 de ces boitiers par "ventilateur de clim", donc ça doit être ça!
https://lafibre.info/images/datacenter/201305_datacenter_google_CBF_009.jpg[/EDIT]


On voit aussi les baies avec des roulettes, ce qui est quand même très rare...

Je suis également étonné que Google utilise encore des faux plancher, que beaucoup d'autres ont abandonné.

Leon.
« Modifié: 31 mai 2013 à 19:57:46 par leon_m »

vivien

  • Administrateur
  • *
  • Messages: 52 508
    • Bluesky LaFibre.info
Les data centers de Googles
« Réponse #33 le: 31 mai 2013 à 19:54:32 »
Pour m'être penché sur la question, un serveur actuel (équipé eux aussi en standard de 4 connecteurs Ethernet) arrivent à streamer sans problème 4 Gb/s de trafic vers des milliers de clients. La limitation est plus au niveau des disques. Avec deux disques dur SATA et de la mémoire vive pour cacher ce qui est le plus utilisé, on arrive sans problème au 4 Gb/s (sans cache en RAM par contre c'est pas possible a moins d'avoir une belle lecture séquentielle ce qui n'est pas le cas en réalité).

Pour pouvoir agréger les ports et ne faire qu'un lien de 4 Gb/s, il faut mettre tous les câbles sur le même switch. Si on va plusieurs switch, c'est pour faire de la tolérance aux panne, pas du partage de charge.

kgersen

  • Modérateur
  • Abonné Orange Fibre
  • *
  • Messages: 9 687
  • Paris (75)
Les data centers de Googles
« Réponse #34 le: 31 mai 2013 à 20:55:34 »
Pour pouvoir agréger les ports et ne faire qu'un lien de 4 Gb/s, il faut mettre tous les câbles sur le même switch. Si on va plusieurs switch, c'est pour faire de la tolérance aux panne, pas du partage de charge.

oui pour du NIC bonding classique car c'est fait au niveau Ethernet.

Mais on peut tres bien faire les 2 (tolérance et partage) au niveau plus haut (style IP failover).
J'aurais cru qu'ils faisaient ca la mais a priori c'est juste de l'aggregation Ethernet classique, ce qui a du sens si cette rangée de baies (voir tout le DC) est la que pour faire du GFS par exemple.

kgersen

  • Modérateur
  • Abonné Orange Fibre
  • *
  • Messages: 9 687
  • Paris (75)
Les data centers de Googles
« Réponse #35 le: 31 mai 2013 à 21:45:11 »
Uplink des switches : certains switch ont leur connexion d'uplink à l'arrière, à côté de l'alimentation.
Je savais pas que ca existait des switches avec ports a l'arriere ... ca pose pas des problemes d'interferences avec l'alim et la ventil ?! et c'est pas trop pratique a brasser non plus.

Sinon l'uplink est peut-etre fait par de l'aggrégation de ports normaux.

Y'a un document de 120 pages (ouch) du VP infra de Google qui explique pas mal de chose. Lecture tres interesante, ca parle aussi de clims, d'alims, de ROI, etc.

(cliquez sur la miniature ci-dessous - le document est au format PDF)


Pour le faux plancher y'a pas de cable dedans c'est juste pour l'air frais du cooling (cf page 54).