Auteur Sujet: Cluster HA Proxmox Fanless 3 noeuds (Lu 20162 fois)

Gnubyte · « **Réponse #36 le:** 30 octobre 2022 à 09:30:23 »

Je suis loin de chez moi et je n'ai pas la tête à linuxer, mais je vais regarder.

Gnubyte · « **Réponse #37 le:** 04 septembre 2025 à 15:58:58 »

Citation de: Leon le 29 octobre 2022 à 16:00:24

Tu peux nous donner une idée des températures atteintes, stp?
A la fois côté processeur et côté périphériques (principalement SSD, et carte 10Gb/s)?
L'absence totale de circulation d'air à l'intérieur du boitier, ça m'inquièterai beaucoup, pour un serveur qui tourne 24H/24.

Leon.

sensors renvoit 51,6°c sur le AMD Ryzen 7 5700G et 51,4°c sur le AMD Ryzen 7 PRO 4750G dans ma cave/datacenter où il fait un bon 28°c. J'ai enfin bazardé les vieilles étagères presque de la cave, sur lesquels le routeur, les noeuds, le NAS, tenaient plus ou moins à coup de cales et de petits moyens.
J'ai tout refait au propre sur une colonne Ikea IVAR 50c50cm.
Le 3eme noeud, le i7 8700K de l'an pèbre, est manifestement incapable de booter, voire même s'interrompt avant de passer le bios. Je dispose des pièces pour le remplacer par un autre Ryzen 7 5700G.

Oui, j'ai mis pas loin de 3 ans à répondre. La vache, ma vie s'accélère, ou je ralentit, ou les deux.

Gnubyte · « **Réponse #38 le:** 03 décembre 2025 à 01:10:14 »

Petite nouvelle du cluster.
Le remplacement du plus vieux nœud, le numéro 3 (ok, c'est mal rangé), celui à base de I7 8700K, objet de scandaleuse maltraitance depuis tant d'années, s'est soldée par un échec. J'avais provisionné une CM Asrock B850 ProRS, chiné un autre Ryzen 5700G, une paire de barrettes de 32Go DDR5 achetée de longue date, du temps encore béni où on avait ça pour moins de 250€ et prévu le volume suffisant de pâte thermique pour me taper l'extraction de la vieille CM, nettoyage ad hoc et la greffe de la nouvelle CM.
J'ai les pièces depuis bien 6 mois, voire plus, et, devant l'enveloppe de temps nécessaire à mener à bien l'opération, en aucun cas moins de 4h en temps continu, j'ai repoussé, repoussé, repoussé.

Un jour, le noeud n°2 n'a pas redémarré immédiatement après une panne de courant, et la grappe ceph a donné des signes de faiblesse. Heureusement, les sauvegardes étaient à jour, et j'ai monté quelques VM via guestmount pour extraire une conf haproxy ou relocaliser un DNS. Du coup, le cluster a passé quelque temps éteint.

J'ai donc réinstallé ce noeud N°3. ça m'a pris une journée, pour faire ça bien. A la fin de la journée, la CM n'a _jamais_ voulu démarrer. Alimentation, RAM, tous les tests y sont passés, et la vérification du processeur étant si pénible, vraiment, j'ai jeté l'éponge.

Le Fanless maison, que j'utilise depuis plus de 10 ans, ok, c'est cool, mais:

Maintenant, j'ai une colonne de serveurs dans la cave, et le bruit ne me dérange plus
Maintenant, les nouveaux processeurs ont une puissance démoniaque
En vrai, l'opération chirurgicale et le tartinage de pâte thermique à n'en plus finir pour les caloducts, c'est joli, mais c'est vraiment pénible à faire

Je me suis donc demandé quelle solution alternative je pourrais dégotter, étant donné ce que peuvent donner ces récentes alternatives aux NAS de grande marque, comme il fait flores ces temps ci, et j'ai trouvé ça: le Minisforum N5

Un petit résumé de la bête :

Le Minisforum N5/N5 Pro est un NAS desktop 5 baies 3,5/2,5" (jusqu’à 5×22 To, soit 110 To) avec 3 emplacements SSD M.2/U.2 et jusqu’à 34 To de SSD.
Deux CPU possibles : Ryzen 7 255 (8C/16T) ou Ryzen AI 9 HX PRO 370 (12C/24T, iGPU 890M, jusqu’à 50 TOPS d’IA sur le Pro).
Jusqu’à 96 Go de DDR5, avec support ECC réservé au N5 Pro.
Réseau intégré 10 GbE + 5 GbE, plus un slot PCIe x16 (PCIe 4.0 x4) et un port OCuLink pour carte additionnelle (HBA, autre NIC, etc.).
Stockage orienté ZFS : RAID0/1/5/6 plus RAIDZ1/RAIDZ2, snapshots, compression LZ4 et multi‑utilisateur isolé.
Livré avec MinisCloud OS (Linux NAS maison) mais support annoncé de Windows 11 Pro et des distributions Linux.
Châssis 199×202×252 mm, ~5 kg, alimentation 19 V / 280 W, clairement pensé comme un micro‑serveur de stockage/IA plutôt qu’un simple mini‑PC.

J'ai pris la version N5 de base, en barebone sans RAM, et j'ai mis un kit CT2K48G56C46S5 Crucial que j'ai aussi provisionné avant que la dangereuse inflation récente ne sévisse. Minisforum est victime de son succès. J'ai acheté ça fin août début septembre, quand aucune review youtube n'en avait trop parlé, et j'ai pu mettre la main sur un N5 en barebone. Il ne reste plus que des versions en N5 Pro, avec un AMD Ryzen AI 9 HX Pro 370 compatible RAM ECC, mais je n'ai pas trouvé ça pertinent pour mon utilisation, sachant que j'ai, par ailleurs, 5 noeuds d'IA explicitement réservés à cet effet. Comment ça je ne vous ai pas raconté ? Un jour vraiment si on me supplie. L'AMD Ryzen AI 9 HX Pro 370, c'est ce que j'ai dans mon laptop, et c'est un excellentissime processeur, dans une enveloppe thermique remarquable, mais pour ce que je fais ce proc n'a pas d'intérêt en production. Le Cluster n'est pas là pour opérer des modèles, mais des VMs. Chacun sa fonction sans mélanger les genres.

Ce matin, j'ai réinstallé tout mon cluster. J'ai re vérifié les sauvegardes (merci les sauvegardes), et j'ai installé from scratch un cluster Proxmox 9.1 avec une architecture ceph revisitée qui n'attend plus que de remettre la main sur les disques SSD SATA de 2To que j'ai provisionné pour l'occasion, mais que j'ai trop bien rangé...

Donc, installation matérielle, mise en place au datacenter à la cave, boot Ventoy, installation des 3 installations de Proxmox communautaires. La suite s'est faite au chaud, bien installé à mon bureau. Mise en /etc/hosts mutuel des 3 noeuds, configuration des dépôts en no-subscription, création du cluster, nettoyage des disques, initialisation de ceph, version Squid, création des OSDs, configuration du stockage, le pool-ceph et l'accès NAS, configuration MTU jumbo frames, sur tous les noeuds et le NAS, sur le switch Mikrotik CRS309 également.
J'ai ressorti mes notes, qui traînent bien rangées dans mon google Keep depuis des lustres, et j'ai gagné un temps fou.

Une fois ceci fait, un script pour remonter la dernière version des sauvegardes de toutes les VMs.

Ca fonctionne tout de même pas mal, Proxmox

Je vais tacher de mettre en place, demain sans doute, un orchestrateur pour les mises à jour, et les intégrer toutes au monitoring.

Leon · « **Réponse #39 le:** 03 décembre 2025 à 06:28:08 »

Salut.

Merci pour cet update! Ravi de voir que la passion de la bidouille est toujours là.

2 questions
* oui, évidemment, ton cluster IA avec 5 noeuds, ça nous intéresse aussi!
* ton nouveau cluster VM Proxmox, je n'ai pas compris... il est constitué de 3 noeuds dont un Minisforum N5; mais quid des 2 autres noeuds? A moins que tu n'aies pris 3 Minisforum N5?

Leon.

zoc · « **Réponse #40 le:** 03 décembre 2025 à 08:18:47 »

Les SSD pour ton cluster cepth c'est bien des SSD "enterprise" (avec Powel Loss Protection) ?

Parce que c'est carrément obligatoire, ceph fait beaucoup d'écritures et "tue" les SSD grand public à une vitesse impressionante. Si les disques ne supportent pas PLP alors impossible pour le SSD d'optimiser les écritures...

J'ai un cluster proxmox/ceph 3 noeuds chez moi, et j'ai testé avec:
- 3 SSD Crucial"grand public" neufs => wear out à 90% en 12 mois...
- 3 SSD Kingston DC600M neufs => wear out à 2% en 10 mois...

Et toujours impressioné par la résilience de ceph, même dans les conditions difficiles auquel il est soumis chez moi (avec des hosts qui crashent régulièrement avec pour cause probable cette catastrophique NIC I225-V).

LeNuageux · « **Réponse #41 le:** 03 décembre 2025 à 09:06:32 »

Belle bete ce MiniForum N5 ! ça envoie de la patate !

J'avait déja vu des petits boitier mais la config est à faire comme les Jonsbo N3/N5 : https://www.amazon.fr/Jonsbo-N3-Nas-Noir/dp/B0CMVBMVHT / https://www.amazon.fr/Jonsbo-Bo%C3%AEtier-NAS-ATX-emplacements/dp/B0FGY4F2W3

La c'est un peu moins chiant la config est déja la faut juste de la RAM ( et ça coute en ce moment ! ) et éventuellement un SSD de boot

bref de mon coté j'ai un Fractal Node 804 ( https://www.fractal-design.com/products/cases/node/node-804/black/ ) pour mon boitier de NAS bidouille à coté j'ai un NAS Synology pour la stabilité et les backup sans prise de tête.

Gnubyte · « **Réponse #42 le:** 05 décembre 2025 à 04:06:38 »

Citation de: Leon le 03 décembre 2025 à 06:28:08

Salut.

Merci pour cet update! Ravi de voir que la passion de la bidouille est toujours là.

2 questions
* oui, évidemment, ton cluster IA avec 5 noeuds, ça nous intéresse aussi!
* ton nouveau cluster VM Proxmox, je n'ai pas compris... il est constitué de 3 noeuds dont un Minisforum N5; mais quid des 2 autres noeuds? A moins que tu n'aies pris 3 Minisforum N5?

Leon.

Le Minisforum N5 est venu remplacer un nœud vieux comme Hérode qui tournait sur un i7 8700K, de 2017, 14nm, aux performances complètement nerfées par nombre de mises à jour de microcode de colmatage à l'arrache des failles Meltdown/Spectre - Quand on flushe le cache processeur à chaque changement de contexte du proc, j'appelle ça un patch à la truelle.
Les 2 autres noeuds sont un Ryzen Pro 4750 G (Zen2) et un 5700G (Zen3) dont j'ai parlé sur ce fil.
Je complèterai plus tard, le besoin de dormir m'est pressant.

Gnubyte · « **Réponse #43 le:** 05 décembre 2025 à 13:43:53 »

J'ai relu ce fil depuis le début, mes yeux échouant sur ma gnose de 2020, et je me suis peu à peu remémore le 4770S, le 4790, le 1700X, toutes preuves manifestes d'outrage à silicium. J'ai quand même cassé un paquet de processeurs... Cette enveloppe des 65W, avec des finesses de gravure de 14 ou 12nm, ce n'était tout de même pas ça...

Comparativement, il y a maintenant plus de cœurs, plus de RAM, plus de disques.

@Zen, ta réflexion sur les disques m'a invité, cette nuit, entre deux régulations, à scanner un peu la santé de la grappe ceph, qui était en WARN. J'y ai découvert 2 disques avec des particularités, et des remarques globales sur l'usure.

1- un Samsung 850 EV0 de 1To âge de 9 ans, sans perte de données, mais avec un certain nombre de secteurs relocalisés, morts. C'était un disque défaillant. J'ai révisé la technique d'extraction de la grappe. Il est débranchable à présent.
2- un Crucial 500 tout ce qu'il ysa de plus grand public a un taux d'usure de 18%, mais son analyse appronfondie n'a pas mis en évidence de défaillance. C'est un disque juste usé.
3- Il y a 12 SSD, dont 2 nvme, utilisés en mon sur px2 et px3, px1 utilisant un disque SSD SATA en mon. Les 9 autres sont des disques, de 500Go et 1To, de bric et de broc, avec des taux d'usure pas du tout aussi hauts qu'attendus:

J'ai 5 disques MLC, cinq, j'ai dû me pincer, vous n'êtes pas prêts. J'avais complètement oublié. Cette technologie aujourd'hui difficilement trouvable était extrêmement endurante, ce qui explique un taux d'usure entre 2 et 3%:

un Crucial M4 (M4-CT512M4SSD2) de 2011 ! MLC NAND en 25nm, le tank. Lent en écriture par rapport aux standards actuels, mais un percheron endurant comme pas deux. 14 ans de bons et loyaux services. Incroyable. Taux d'usure de 3%.
un Crucial M500 CT480M500SSD1, de 2013, de 2013, MLC 20nm, taux d'usure de 2%
une paire de Crucial M550, CT512M550SSD1 de 2014, de 1To, MLC 20nm également, taux d'usure de 3%.

L'un est en mon sur px1, Crucial_CT512M550SSD1_14230E018714, 78203h de vol, wear à 3%, il a été allumé en 2014 et n'a quasiment jamais été éteint depuis, en gros. C'est un SSD MLC de l'âge d'or du SSD SATA en retraite dorée.
L'autre est en osd, toujour sur px1, Crucial_CT512M550SSD1_14240E022398. Si le Wear est à 3%, il est plus jeune de quelques semaines que l'autre M550, et il a 7 ans d'activité et son analyse smart indique une usure de 11% Il a consommé 342 cycles sur les 3000 cycles que permet la techno. À ce rythme, il atteindra les 100% d'usure dans... environ 50 ans.

j'ai même un introuvable (aujourd'hui) Samsung 970 PRO nvme de 500Go, de 2018. C'est la dernière génération de SSD MLC de Samsung, après ils sont passé à du TLC. C'est de la 2-bit MLC V-NAND, une rareté absolue aujourd'hui. Le pire, c'est que je l'ai mis en moniteur sur px2 ! Je vais programmer de le remplacer (j'ai un disque sous la main) et le placer à part pour héberger les WAL/DB à forte fréquence d'écriture.

J'ai une brochette de disques Crucial, un BX500 et 3 MX500. Une étude en détail s'impose, tant qu'on y est.

un Crucial CT1000MX500SSD1_1914E1F6ECBB date d'avril 2019, taux d'usure de 18% mais sans erreur, 24246h de vol, soit 2 ans et 9 mois, c'est lui qui a pris le plus cher, mais sans erreur. Il sortira le premier. Hop, sous verre.
un Crucial CT1000MX500SSD1_1914E1F6EC97 date de mars/avril 2021, 4 ans et 8 mois, mais il a déjà 4 ans et 3 mois de fonctionnement continu, 37767 heures pour être exact. Durant ce temps de fonctionnement, il s'est usé à 12%, mais sans erreurs également. Je vais le transformer en sous verre aussi.
un Crucial CT1000BX500SSD1_2113E5901E94, wear à 1%, 33054h - la grosse bouse, TLC, sans cache SLC, lent, le wear 1% trompeur, il a tourné 3 ans et 9 mois pour un âge physique de 4 ans et 8 mois. Il n'a pas dormi longtemps avant d'être branché. Il ralentit la grappe. Je vais le faire rejoindre les sous bocks.
un Crucial CT1000MX500SSD1_2139E5D6AAFD, 21300h de vol, wear 5% - il est sauvé parce que sur ses 4 ans et 2 mois d'existence il a passé le plus clair de son temps sur une carte mère en panne, cependant, il est un peu plus récent que les autres MX et la sortie du trafic WAL/DB va lui faire du bien.

Les mentions spéciales:

Le Samsung_SSD_850_EVO_1TB_S21DNXAGC22779M, wear inconnu, 81274h de vol. Fabriqué en 2015, ou début 2016, si l'on suit son temps de fonctionnement, il a été allumé en septembre 2016, tournant H24 durant 9 ans. Il a très peu écrit (seulement ~12 To en 9 ans, ce qui est ridicule). Donc, mathématiquement, ses cellules mémoire ne sont pas "usées" par le frottement des électrons. C'est pour ça que le compteur d'usure (Wear Leveling Count) était encore à 99% ou inconnu. Par contre, les couches isolantes dans les cellules vieillissent avec le temps, la chaleur et le courant électrique continu pendant 9 ans. Ce disque n'est pas mort d'épuisement (trop de travail), il est mort de sénilité. Celui là, je vais l'épingler sur la poutre derrière mon écran, ou alors le laisser branché en tentant l'uptime record du seigneur :-)
Le AirDisk_128GB_SSD_QG8656B007476P110N de 128Go, disque d'obscure seconde source, livré avec le Minisforum N5 - il est neuf, alors pour l'OS il tiendra le coup, mais je vais le surveiller. C'est le plus pourri des disques.

Donc, @Zoc, merci pour ta question, fort pertinente, qui me fait changer de stratégie d'organisation.

Citer

monsuperuser@px1:~# ceph device ls

DEVICE HOST:DEV DAEMONS WEAR LIFE EXPECTANCY
AirDisk_128GB_SSD_QG8656B007476P110N px3:nvme0n1 mon.px3 0%
CT1000BX500SSD1 px2:sdb osd.4 1%
CT1000MX500SSD1 px2:sda osd.3 12%
CT1000MX500SSD1 px1:sda osd.0 18%
CT1000MX500SSD1 px3:sdc osd.7 5%
Crucial_CT480M500SSD1 px3:sdb osd.6 2%
Crucial_CT512M550SSD1 px1:sdc mon.px1 3%
Crucial_CT512M550SSD1 px1:sdd osd.2 3%
M4-CT512M4SSD2_0000000012510921585F px1:sdb osd.1 3%
Samsung_SSD_850_EVO_1TB px3:sdd osd.8
Samsung_SSD_860_EVO_500GB px3:sda osd.5 0%
Samsung_SSD_970_PRO_512GB px2:nvme0n1 mon.px2 1%

Il me reste 2 paires de disques SSD de 2To, qui sont tellement bien rangés que je ne les retrouve plus, qui vont venir remplacer ceux qui craignent. Leur analyse (2 ont tourné sur le cluster pro) sera intéressante.

Si je devais en racheter, je prendrais des Kingston DC600M en 2To