Bonjour à tous, que je lis attentivement entre deux patients, ou pendant mon opulente pause déjeuner de 33 minutes. Je vous livre un épisode du 3615 MALIFE d'une partie du homelab qui touche l'accès 2.5Gbps.
Je vous raconte quelques minutes des aventures du manoir du chaos (référence à la colonne de Jerry Pournelle dans Byte Magazine, que les moins de 40 ans ne peuvent pas connaître)
Hier, j'ai reconstruit mon cluster de virtualisation, extrêmement mis à mal par le sévère empoisonnement dû à la mort prématurée d'un SSD NVMe non refroidi du noeud N°2. Ce SSD a mal vécu sa vie en refroidissement passif. Un seul nœud était dans ce cas, les autres nœuds disposant de disques système SSD SATA, la stabilité y est resté la règle.
Je précise, la corruption s'est produite dans le filesystème de l'hyperviseur N°2, laquelle corruption a compromis la stabilité de la grappe ceph.
Ceph, c'est la technologie de disques répartis dupliqués à haute disponibilité. Ceph héberge les données, les VMs, garante de la stabilité des systèmes hébergés. Si Ceph souffre, rare mais pas impossible, il faut veiller au grain pour ne pas tout perdre. C'est puissant, Ceph, mais c'est un peu obscur et boite noire. Ça juste marche méga bien, mais on peut moins bien le gérer à la main qu'une grappe RAID.
J'ai donc pris le parti de remplacer le disque (système, noeud N°2) fautif, et, ne parvenant initialement pas à re-synchroniser le cluster, je l'ai intégralement réinstallé, en étendant la grappe Ceph, refaite pour l'occasion.
Pour ceux qui suivent, le pont façonné sur la carte BMC57810S se trouve dans l'hyperviseur N°3. Donc, une mise à jour logicielle de ce nœud impliquait le débranchement logique de l'accès internet, le temps de réinstaller le nœud N°3, recompiler le module noyau patché, re façonner le pont. J'ai été aidé par l'utilisation d'un ONU ZTE déjà préalablement paramétré, directement inséré dans le routeur Mikrotik CCR2004. Je n'ai eu qu'à l'insérer en lieu et place du câble DAC reliant le pont au routeur, et l'accès a retrouvé ses petits.
Une fois les 2 premiers nœuds réinstallés, le 3eme a été un jeu d'enfant, même avec le pont et le module noyau. Ceci fait, re mise en forme de la grappe ceph, étendue cette fois, et restauration des sauvegardes.
Tout refonctionne. J'ai validé la procédure de mise à jour du module de la carte BMC57810S pour la prochaine fois.
Et vive la virtualisation, au passage. Une fois le cluster HA remis en ligne, les VMs sauvegardées ont été restaurées en un clin d'oeil (en simple 1Gbps, car le cluster est bloqué à cette vitesse)
Du coup, ça me donne des idées...
Si je remplace le Ryzen 3700X du noeud N°2 par un Renoir du même genre doté de sa carte video intégrée, jepeux doter tout le cluster de cartes 10Gbps...