Auteur Sujet: Cluster HA Proxmox Fanless 3 noeuds  (Lu 10640 fois)

0 Membres et 1 Invité sur ce sujet

Gnubyte

  • Abonné Orange Fibre
  • *
  • Messages: 1 078
  • Toulon (83)
    • HSGMII intégriste
Cluster HA Proxmox Fanless 3 noeuds
« le: 18 novembre 2020 à 09:36:20 »
Je causerai de mon cluster ici.
C'est un peu overkill, mais je n'ai trouvé que cette façon pour pouvoir jouer à l'envie avec un cluster Proxmox sans peur de tout casser au travail.
Ça ne fait aucun bruit, c'est de la vraie HA à espace disque commun partagé. Ça juste marche bien, et ce n'est pas comme si je manquais de bande passante.
Je vais devoir changer le disque nvme du noeud N°2. C'était un disque Samsung de 250Go livré dans un Xiaomi Notebook 13, et qui n'était pas destiné à vivre une telle vie d'enfer.
Hop hop hop, réservation de 3-4 posts, et ça va venir.

En jetant un oeil rapide aux photos, les noeuds se sont succédés entre 2014 et 2019. 5 ans, à chiner des pièces sur HFR ou la baie, ou black friday, pour ne pas me laisser sur la paille.

Le principal grief de ce cluster, ce sont les interfaces Ethernet juste 1Gbps. Agaçant, hein, à l'heure du LAN 10Gbps.
Hélas, une des machine est une AMD, non Renoir, sans carte video intégrée. Je devrais cependant y venir, pour libérer le port pris par la carte Video, et ainsi passer tout ce petit monde en 10Gbps.

Je viens de vérifier, et en fait, ça a été un travail de longue haleine.
Le premier noeud, un i7 4770S sur CM ASUS H97M-PLUS, date du 31 octobre 2014... Le noeud tient encore.

Cette machine, qui n'était pas destinée à devenir un nœud de cluster, était d'abord une expérimentation sur le thème de la machine sans refroidissement mobile, en pur passif.
Le boitier, un Stracom FC5, est vendu pour 65W, et le i7 4770S est donné pour tel.
Cette machine n'a connu que des systèmes linux, avec toutes mes expérimentations de "retour vers une machine sûre". Je venais juste de lâcher Eve Online (j'ai donné 7 ans), et je voulais revenir à un système Linux dont je maîtriserais autant que possible le périmètre. Donc, toutes mes expérimentations Linux Gentoo se sont faites sur cette machine, qui a recompilé des update durant des mois. Il y a même eu du hardened là dessus.
« Modifié: 18 novembre 2020 à 11:21:38 par Gnubyte »

Gnubyte

  • Abonné Orange Fibre
  • *
  • Messages: 1 078
  • Toulon (83)
    • HSGMII intégriste
Cluster HA Proxmox Fanless 3 noeuds
« Réponse #1 le: 18 novembre 2020 à 09:36:31 »
Voici le noeud Numéro 2:



Un Ryzen R7 2700X, puis 3700X quand le 2700X a donné des signes de faiblesse (il travaillait vraiment en limite d'enveloppe thermique supportable), sur CM ASRock AB350Pro4, 64Go de RAM DDR4, carte video EVGA 1060. Je n'avais pas exclu d'en faire autre chose qu'un noeud.

Le boitier est un HDPlex H5, acheté d'occase sur HFR. Pas cher, avec l'alim.
« Modifié: 20 février 2021 à 15:38:54 par Gnubyte »

Gnubyte

  • Abonné Orange Fibre
  • *
  • Messages: 1 078
  • Toulon (83)
    • HSGMII intégriste
Cluster HA Proxmox Fanless 3 noeuds
« Réponse #2 le: 18 novembre 2020 à 09:36:37 »
Hop hop hop, réservation de 3-4 posts

Gnubyte

  • Abonné Orange Fibre
  • *
  • Messages: 1 078
  • Toulon (83)
    • HSGMII intégriste
Cluster HA Proxmox Fanless 3 noeuds
« Réponse #3 le: 18 novembre 2020 à 09:36:44 »
Hop hop hop, réservation de 3-4 posts

lechercheur123

  • AS2027 MilkyWan
  • Expert
  • *
  • Messages: 1 297
  • Montauban (82)
    • AS208261 - Pomme Télécom
Cluster HA Proxmox Fanless 3 noeuds
« Réponse #4 le: 18 novembre 2020 à 10:16:50 »
Curieux de voir ça :p

tanuki

  • Abonné Free fibre
  • *
  • Messages: 271
  • Riedisheim (68)
    • Twitter
Cluster HA Proxmox Fanless 3 noeuds
« Réponse #5 le: 18 novembre 2020 à 10:22:17 »
J'ai commencé aussi mon home lab avec un petit NUC8i3. C'est pas vraiment fanless, mais c'est à la cave et ça fait vraiment peu de bruit. Les disques et ventilateurs du NAS font largement plus de bruit.

Gnubyte

  • Abonné Orange Fibre
  • *
  • Messages: 1 078
  • Toulon (83)
    • HSGMII intégriste
Cluster HA Proxmox Fanless 3 noeuds
« Réponse #6 le: 18 novembre 2020 à 10:55:51 »
Curieux de voir ça :p
Une petite photo pour patienter ?

butler_fr

  • Client Bbox adsl
  • Modérateur
  • *
  • Messages: 3 588
  • FTTH orange
Cluster HA Proxmox Fanless 3 noeuds
« Réponse #7 le: 18 novembre 2020 à 10:58:05 »
intéressé aussi ;)

Gnubyte

  • Abonné Orange Fibre
  • *
  • Messages: 1 078
  • Toulon (83)
    • HSGMII intégriste
Cluster HA Proxmox Fanless 3 noeuds
« Réponse #8 le: 18 novembre 2020 à 11:03:47 »
intéressé aussi ;)
Bon, ok, d'accord, si on me supplie  ::)


Photo du Noeud N°2, un Ryzen 3700X, en cours de montage, sur alimentation externe. C'est le nœud qui a perdu son disque nvme.

Leon

  • Client SFR sur réseau Numericable
  • Modérateur
  • *
  • Messages: 6 213
Cluster HA Proxmox Fanless 3 noeuds
« Réponse #9 le: 21 novembre 2020 à 06:48:43 »
Oh, le concept Fanless, j'aime bien. Mais ça me fait un peu peur, même pour des puissances raisonnables (on parle quand même de 150 à 200W tout compris pour le node no2).
Quelques questions, comme à mon habitude:
 - Quand tes machines sont "en situations", installées dans leur vrai emplacement, est-ce que tu optimise l'écoulement d'air, en laissant beaucoup de place au dessus et en dessous des ailettes? Ca change beaucoup de choses en général.
 - Si c'est pas indiscret, jusqu'à quelles températures de composants tu montes, en pleine charge sur de longues durées?
 - Pour le node n°1, je vois que tu utilises une micro PSU. C'est fiable sur le long terme?
 - Pour le node n°2, pourquoi tu utilises une alim externe sur la photo? Le DCATX interne ne suffit pas? 
 - Pour faire plus que 1Gb/s, tu ne peux pas installer des petites cartes 2.5Gb/s? Avec des riser flexibles PCIe. Il semble rester un peu de place dans chacun des 2 boitiers.
 - Pour finir, tu peux nous dire quel genre de bidouilles tu fais avec ce cluster?

Leon.
« Modifié: 21 novembre 2020 à 09:17:27 par Leon »

Gnubyte

  • Abonné Orange Fibre
  • *
  • Messages: 1 078
  • Toulon (83)
    • HSGMII intégriste
Cluster HA Proxmox Fanless 3 noeuds
« Réponse #10 le: 21 novembre 2020 à 22:38:54 »
Oh, le concept Fanless, j'aime bien. Mais ça me fait un peu peur, même pour des puissances raisonnables (on parle quand même de 150 à 200W tout compris pour le node no2).
Quelques questions, comme à mon habitude:
 - Quand tes machines sont "en situations", installées dans leur vrai emplacement, est-ce que tu optimise l'écoulement d'air, en laissant beaucoup de place au dessus et en dessous des ailettes? Ca change beaucoup de choses en général.
 - Si c'est pas indiscret, jusqu'à quelles températures de composants tu montes, en pleine charge sur de longues durées?
 - Pour le node n°1, je vois que tu utilises une micro PSU. C'est fiable sur le long terme?
 - Pour le node n°2, pourquoi tu utilises une alim externe sur la photo? Le DCATX interne ne suffit pas? 
 - Pour faire plus que 1Gb/s, tu ne peux pas installer des petites cartes 2.5Gb/s? Avec des riser flexibles PCIe. Il semble rester un peu de place dans chacun des 2 boitiers.
 - Pour finir, tu peux nous dire quel genre de bidouilles tu fais avec ce cluster?

Leon.
Bonjour Léon.
  • Les machines sont toutes empilées les unes sur les autres, en dessous de mon imprimante laser multifonction. La climatisation de mon (vaste) séjour,  à l'angle duquel se trouve mon bureau, siège sur le mur de droite, pointé vers ma gauche. Si je tends le bras gauche latéralement, ma main se trouve environ à la moitié de la profondeur des boitiers. Vu que mon séjour est orienté Sud, et qu'à l'étage du dessus il y a une terrasse, la vie, cluster ou pas, est intenable sans climatisation l'été. Le cluster bénéficie de cet air frais à la belle mais chaude saison. L'hiver, il évite le chauffage par grands froids (rares, ici).
  • Le Node 1 tourne, tel quel, depuis 6 ans, H24. Donc, oui, l'alimentation micro PSU utilisée, d'origine Streacom, fonctionne.
  • Le Node 2, sur la photo, a utilisé une alimentation externe pour les tests, car la machine ne produit absolument aucun bruit, aucun bip, aucun ventilateur ne vient trahir l'allumage de la machine. Il est alors utile d'élaguer les possibilités de défaillance le temps de sécuriser la configuration du boot. L'alimentation DXATX de 250W fait parfaitement le job, alimenté par une alimentation 19V 300W Alienware.
  • Node 3 tourne à l'autre bout du séjour, à 2 switchs de là par liaison fibre optique multimode 10Gbps. C'est node 3 qui abrite le pont 2.5/10gbps de l'accès fibre Orange.
  • J'installerai des cartes ethernet carrément en 10Gbps, sur des risers ad-hoc, dés lors que j'aurai remplacé le R7 3700X par un R74700G doté de sa carte graphique intégrée. Vu que le processeur est OEM only, je peux ramer pour en trouver. Tout bien considéré, pas nécessairement, mais ça coûte un peu: https://www.ebay.com/itm/AMD-Ryzen-7-PRO-4750G-3-6GHz-8-Core-CPU-Processor-Socket-AM4/203160924537?epid=13040588163&hash=item2f4d55b179:g:E-QAAOSwP4NfnNDE 418€ depuis la Chine pour un Ryzen 7 4750G en AM4.
  • C'est simple, c'est un cluster pour expérimenter, casser, refaire. Il est stable depuis bien 2 ans, et me sert de terrain de jeu pour améliorer mes compétences dans ce domaine.  Je dispose d'un cluster avec les mêmes technologies logicielles au travail, bien plus sérieux, avec des TR 2950X, 128Go de DDR4 ECC, et une bardée de disques SSD en grappe Ceph. Le plantage cette semaine du disque NVME système du node 2 semble avoir rendu la grappe ceph non fonctionnelle... Et mes sauvegardes sont éventuellement un peu trop anciennes, ce qui est extrêmement tarte compte tenu que le NAS est rangé juste dessous la table.... J'ignore si je pourrai récupérer la grappe une fois le disque du node 2 rétabli, mais ce problème va me plonger dans l'analyse de Ceph sans casser celui du travail, et il est justement là pour ça. Apprendre des trucs nouveaux et rigolos. Ce cluster me permet de générer des master que je déplace sur le cluster pro. A bien des égards, il s'agit de mon cluster de test et pré prod. Rien d'absolument fondamental n'y tourne. Sinon, dés lors que l'on utilise pas un disque de sous catégorie comme disque système sans veiller à la sénescence liée aux logs, il fonctionne de façon remarquable, avec 500Go d'espace disque partagé redondant dupliqué, avec haute disponibilité. Sur ce cluster, j'ai tout débranché à l'arrache, et vu les VM redémarrer à côté.
  • Le Cluster et le NAS sont ondulés, avec les switchs.
C'est beau, un cluster, qui fonctionne, la nuit.
En fait, non, on ne voit rien, juste un vague pâleur bleue autour du gros logo HDPlex, mais il est là, à faire tourner du DNS, du mail, du web, de l'UNMS, du UNIFI, du varnish, etc, etc.
Pour un peu, c'est vivant  :D

En substance, monter une première machine fanless était un début sympa. Ce seul noeud, silencieux, a abrité un hyperviseur en libvirt durant des années. Un 6700k et un boitier HDPlex d'occase plus loin (parfois on fait des affaires, il faut chiner), l'idée germe, et hop une CM, hop de la RAM pour cyber Monday, hop node 3 est ok... Monter un node fanless prend beaucoup plus de temps qu'une machine classique. Pour le node 2, je voulais un Ryzen, et ça a été mon premier proc Ryzen, 1700X, en 14mm Zen de base. Il a tenu le coup un moment. J'essaie une techno, puis une autre, Ganeti DRBD, sur Gentoo (mais il faut gérer 365/365), et enfin Proxmox (vraiment pas mal foutu).

Gnubyte

  • Abonné Orange Fibre
  • *
  • Messages: 1 078
  • Toulon (83)
    • HSGMII intégriste
Cluster HA Proxmox Fanless 3 noeuds
« Réponse #11 le: 20 février 2021 à 15:35:24 »
Quelques nouvelles du cluster.

- Je viens de trouver un AMD Ryzen 7 PRO 4750G - 3.6-4.4GHz/12Mo/AM4 pour remplacer le 3700X du nœud N°2, retirer la carte video GTX 1060 pour pouvoir convertir tout le cluster en 10Gbps avec des cartes Dell N20KJ. Je devrai remplacer la carte ASRock B350 Pro4 par une B550 Pro4.

- La surchauffe de la carte Nvme Samsung 256Go, sur lequel démarrait le système Debian/Proxmox du nœud N°2, a placé le cluster en mode dégradé, avec un maintien en opération de la grappe Ceph. Toutes les VM tournant sur N°2 ont été dispatchées sur les autres nœuds quand elles étaient dans des pool surveillés. J'ai procédé à la vérification des sauvegardes des VMs sur le NAS via les fonctions de backup intégrées, et j'ai changé le disque pour un Crucial de 500Go, que j'ai équipé d'ailettes de dissipation en cuivre.

- J'ai réinstallé le nœud, et restauré les sauvegardes, qui ont re-fonctionné comme par magie en quelques minutes. Par contre, je n'ai un moment pas su me tirer de l'anomalie de perte d'OSD ceph (depuis, j'ai compris et je saurai le faire), et j'ai finalement, grâce aux sauvegardes ainsi testée en vrai, réinstallé tout le cluster, les 3 noeuds, avec mise à jour système et noyau du N°3 qui porte la carte BMC57810S comportant le pont FTTH-ONU-HSGMII 2.5Gbps-10Gbps. Cette intervention, sur le système par lequel passe internet dans mon installation, m'occasionnait quelques inquiétudes. Ça a été plus simple que prévu, et j'ai rodé la méthodologie.  J'ai même étendu la capacité de la grappe Ceph de disques SSD SATA provisionnés pour l'occasion mais jamais déployés. La restauration des sauvegardes a été aussi simple que la première fois.

Je m'attache à refaire ma conf varnish "déjà-faite-bientôt-déployée-mais-pas-encore-parfaite" en recommençant depuis le début avec l'expérience acquise.