Auteur Sujet: Scaleway se lance dans l'IA - Supercalculateur GPU H100  (Lu 971 fois)

0 Membres et 1 Invité sur ce sujet

underground78

  • Expert
  • Abonné Free fibre
  • *
  • Messages: 7 437
  • Orsay (91)
    • FreePON : suivi géographique du déploiement fibre EPON chez Free
Scaleway se lance dans l'IA - Supercalculateur GPU H100
« le: 26 septembre 2023 à 10:14:07 »
Bonjour,

Scaleway annonce ce matin avoir fait l'acquisition de 107 DGX H100 de NVIDIA (soit 1016 GPU H100) dans le cadre de sa stratégie sur l'IA : https://s3.fr-par.scw.cloud/iliad-strapi/DP_iliad_IA_260923_7643390cfb.pdf.

Au niveau de la puissance de calcul, c'est assez impressionnant puisque c'est de l'ordre de grandeur de celui des supercalculateurs académiques nationaux français (par exemple, ça doit être plus ou moins l'équivalent de Jean Zay en matière de puissance crête).

Pour le reste c'est toujours difficile de savoir ce qui est marketing ou pas...


(cliquez sur la miniature ci-dessous - le document est au format PDF)



alain_p

  • Abonné Free fibre
  • *
  • Messages: 16 276
  • Delta S 10G-EPON sur Les Ulis (91)
Scaleway se lance dans l'IA - Supercalculateur GPU H100
« Réponse #1 le: 26 septembre 2023 à 11:07:08 »
Cela dépend des modèles précis, mais le TDP de ces processeurs est de 300-350W, et peut monter jusqu'à 700W. Je ne crois pas que l'IA va favoriser la sobriété énergétique de l'IT.

Par contre, les affaires de Nvidia sont florissantes. Et il semble qu'Iliad se lance effectivement dans un grand plan IA.

https://resources.nvidia.com/en-us-tensor-core/nvidia-tensor-core-gpu-datasheet

Leon

  • Client SFR sur réseau Numericable
  • Modérateur
  • *
  • Messages: 6 003
Scaleway se lance dans l'IA - Supercalculateur GPU H100
« Réponse #2 le: 26 septembre 2023 à 11:21:02 »
Cela dépend des modèles précis, mais le TDP de ces processeurs est de 300-350W, et peut monter jusqu'à 700W. Je ne crois pas que l'IA va favoriser la sobriété énergétique de l'IT.
C'est assez basique, et probablement faux comme raisonnement, non?

Ton raisonnement ne dit pas quelle "puissance de calcul" tient dans ces très gros GPUs de 700W.
On ne parle pas de GPU pour du cloud-gaming, mais pour des gros batch de calcul intensif (IA ou autre).
Un seul de ces très gros GPU remplace peut-être des dizaines de serveurs, pour des tâches bien spécifiques...
Les hardware spécialisés, dont les GPU, sont systématiquement beaucoup plus rentables, en terme de puissance de calcul par watt, que les "general purpose CPU".

Bref, il ne faut pas mélanger centralisation du calcul, et consommation IT.

Une petite analogie à 2 balles: un artisan verrier consomme moins d'énergie, pour produire des bouteilles en verre (par exemple), qu'une grosse usine de bouteilles de verre. Par contre, il est infiniment moins efficace énergétiquement qu'une grosse usine de production de bouteilles de verre, qui elle consomme pourtant des centaines/milliers de fois plus d'énergie. Etonnant, non?

Pour en revenir sur des serveurs : un CPU AMPERE de 350W, qui contient plus de 100 cores ARM, consomme plus d'énergie que la plupart des CPU de serveurs. Pourtant, il est ~2 fois plus efficace énergétiquement comme "multicore general purpose CPU" que tous les CPU à base d'AMD-64=x64.

La centralisation tend en général à une meilleure efficacité énergétique, quel que soit le domaine, même si la consommation d'énergie monstrueuse est alors plus "visible" car centralisée.

Leon.
« Modifié: 26 septembre 2023 à 12:14:31 par Leon »

alain_p

  • Abonné Free fibre
  • *
  • Messages: 16 276
  • Delta S 10G-EPON sur Les Ulis (91)
Scaleway se lance dans l'IA - Supercalculateur GPU H100
« Réponse #3 le: 26 septembre 2023 à 21:57:02 »
Un seul de ces très gros GPU remplace peut-être des dizaines de serveurs, pour des tâches bien spécifiques...
Les hardware spécialisés, dont les GPU, sont systématiquement beaucoup plus rentables, en terme de puissance de calcul par watt, que les "general purpose CPU".

En fait, on ne remplace pas des dizaines se serveurs, on en profite pour accroitre la densité, en en mettant autant, pour plus de puissance. Mais au total, la puissance consommée est bien plus importante, car la puissance de calcul produite est multipliée par 4 ou 5 dans le même espace.

J'ai assisté il y a quelque temps à une présentation HPE, où un ingénieur disait qu'un CPU à 130W était maintenant considéré comme un petit processeur (là on parle plutôt Intel ou AMD), il y a quelques années c'était un processeur puissant, qu'il fallait plutôt compter 250 ou 300W, que pour les alims des serveurs (des bi-pro dans ce contexte), ils ne faisaient plus d'alim 500W, que la norme était plutôt 1600 W, et qu'au minimum, il n'y avait rien en dessous de 800 W. Pour le même facteur de forme, 1U ou 2U.
Récemment, dans un webinaire, on nous a vanté les armoires rack à  refroidissement liquide qui permettent d'absorber la chaleur dégagée, en nous disant qu'au rapport de puissance, on avait moins besoin de refroidissement dans un datacenter...

Citer
Pour en revenir sur des serveurs : un CPU AMPERE de 350W, qui contient plus de 100 cores ARM, consomme plus d'énergie que la plupart des CPU de serveurs. Pourtant, il est ~2 fois plus efficace énergétiquement comme "multicore general purpose CPU" que tous les CPU à base d'AMD-64=x64.

La centralisation tend en général à une meilleure efficacité énergétique, quel que soit le domaine, même si la consommation d'énergie monstrueuse est alors plus "visible" car centralisée.

J'ai assisté aussi il y a quelques mois à la présentation d'une entreprise française qui fait des serveurs à base de processeurs ARM, et qui vantait la sobriété énergétique, par coeur, de ses processeurs. J'ai demandé quel était leur TDP. Là aussi, c'était 250 à 300 W. Elle nous a vanté la densité de calcul que l'on obtenait par rack. Un ingénieur nous a dit qu'il fallait compter 22 kW par rack rempli de leurs serveurs... Nous, on dispose d'environ 10 kW par rack, donc on les ferait disjoncter...

L'efficacité énergétique, c'est le nouveau greenwahing. On vante le rapport Mflop/W, plus grand, mais en fait, comme on augmente la densité, et le nombre total de Mflop, au total on consomme plus.

On a parlé des processeurs Ampère qu'avait acheté Amazon, des ARM. Cela leur permet de mettre plus de sites web par serveur, donc c'est rentable pour eux, leur permet d'augmenter le nombre de sites web qu'ils peuvent louer dans le même espace (ou location de puissance de calcul), mais au total, la puissance électrique consommée a bien augmenté.

Cela me rappelle la 5G. On dit qu'au rapport octet transmis par watt, la 5G est meilleure, plus efficace que la 4G. mais on dit aussi qu'au vu de l’augmentation de la consommation de data, le passage à la 5G est indispensable pour absorber la croissance. En fait, on prévoit là aussi, en prolongeant les courbes, qu'il faudra en transmettre 5 ou 6 fois plus dans quelques années. On ne se dit pas que l'on pourrait arrêter la croissance de consommation de data, à sa valeur actuelle, et en fait diminuer la consommation totale...

Un émietter 5G, c'est plusieurs centaines de W, il faut revoir l'alimentation électrique des sites, pour leur apporter ce surplus de puissance électrique nécessaire...

https://www.zdnet.fr/actualites/ampere-lance-altra-pour-concurrencer-intel-et-amd-39900085.htm

vivien

  • Administrateur
  • *
  • Messages: 47 231
    • Twitter LaFibre.info
Scaleway se lance dans l'IA - Supercalculateur GPU H100
« Réponse #4 le: 27 septembre 2023 à 07:00:54 »
C'est ce que l'on appelle "L'effet rebond" : Cela désigne un accroissement de la consommation provoqué par la réduction des limites qui étaient jusque-là posées.

Exemple : On a un codec vidéo qui compresse mieux la vidéo, au lieu de diminuer le débit du flux vidéo, on va augmenter la qualité du flux vidéo.

Quand une technologie permet d'économiser de l'énergie, on ne s'attend pas à ce que tout ce gain permette de réduire la consommation : On sait qu'il va y avoir de l'effet rebond, c'est-à-dire une augmentation des usages.

Leon

  • Client SFR sur réseau Numericable
  • Modérateur
  • *
  • Messages: 6 003
Scaleway se lance dans l'IA - Supercalculateur GPU H100
« Réponse #5 le: 27 septembre 2023 à 07:31:57 »
OK, je comprends mieux ce qu'a voulu dire alain_p.
C'est vrai que les calculs massifs de type IA n'existaient pas il y a quelques années, et que ça se rajoute en plus de ce qui existe, ça offre de nouvelles prestation, plutôt que de remplacer des charges de calcul pré-existantes de manière plus efficace.

Leon.

Free_me

  • Abonné Free fibre
  • *
  • Messages: 3 121
  • Marseille
Scaleway se lance dans l'IA - Supercalculateur GPU H100
« Réponse #6 le: 27 septembre 2023 à 08:39:49 »
Cela dépend des modèles précis, mais le TDP de ces processeurs est de 300-350W, et peut monter jusqu'à 700W. Je ne crois pas que l'IA va favoriser la sobriété énergétique de l'IT.

ben, heureusement que ce n'est pas du tout l'objectif de cet achat.... de 'favoriser' une quelconque sobriété.

Myck205

  • Abonné Orange / Sosh 4G/5G
  • *
  • Messages: 6 253
  • Free FTTH 10G/SFR Box 9 8Gpartagé/Orange 5XGSPON
Scaleway se lance dans l'IA - Supercalculateur GPU H100
« Réponse #7 le: 27 septembre 2023 à 12:19:39 »
ben, heureusement que ce n'est pas du tout l'objectif de cet achat.... de 'favoriser' une quelconque sobriété.

Oui, clairement, sinon faudra ressortir son boulier pour faire ses calcules.

Bref, saluons cette initiative de la part d'un opérateur français ! Et une première en Europe  8)

À voir comment cela va être exploité dans le futur  :)