La Fibre

Datacenter et équipements réseaux => Équipements réseaux => Serveurs NAS, serveurs et micro-serveurs => Discussion démarrée par: vivien le 31 octobre 2019 à 13:43:37

Titre: Serveur Dell R330: Arret pour surcharge sans raison
Posté par: vivien le 31 octobre 2019 à 13:43:37
"The system halted because system power exceeds capacity"

Dell PowerEdge R330: Je m’étonne de voir ce message sur un serveur peu chargé (consommation typique de 42 watts, un seul SSD de 120 Go) alors qu'il est équipé de 2 blocs d’alimentation redondants enfichables à chaud de 350 W.

(https://lafibre.info/images/materiel/201910_dell_poweredge_r330_1.png)

Voici les journaux iDRAC :


(https://lafibre.info/images/materiel/201910_dell_poweredge_r330_2.png)
Titre: Serveur Dell R330: Arret pour surcharge sans raison
Posté par: JeannotPlanche le 31 octobre 2019 à 23:47:23
Je n'ai jamais vu ce message sur un R330 mais je ne serais pas étonné que ce soit un bug ou un problème électronique. Le genre de message qui disparaît au reboot et reviendra dans 6 mois, sans raison.
Est-il sous garantie ? As-tu demandé au support ?
Titre: Serveur Dell R330: Arret pour surcharge sans raison
Posté par: vivien le 01 novembre 2019 à 07:50:38
Oui, il est sous garantie, j'ai redémarré le serveur et tout est reparti, je n'ai pas sollicité le support Dell.

J'ai tenté de faire des mises à jour via Lifecycle Controller (F10 de mémoire au boot). Cela a toujours été une galère (même avec d'autres type de serveurs Dell), chaque téléchargement se fait sur ftp.dell.com et c'est 90% du temps en échec. Bref je n'ai rien mis à jour.
Titre: Serveur Dell R330: Arret pour surcharge sans raison
Posté par: Ilyazam le 01 novembre 2019 à 08:38:34
Tu peux tenter de mettre à jour les différents firmwares (alimentations ...) via Linux, Dell propose des fichiers .bin qui doivent fonctionner sur Ubuntu
Normalement il suffit d'aller sur le site de support avec le service tag (je l'ai beaucoup fait sur des Rx10/Rx20).
Il y a juste un reboot à prévoir pour la prise en compte après l'installation.
Titre: Serveur Dell R330: Arret pour surcharge sans raison
Posté par: alain_p le 01 novembre 2019 à 10:17:42
Il est aussi possible de télécharger la dernière mise à jour des PSU, un exe, puis dans la console iDRAC, je ne me rappelle plus où exactement, mais c'est du genre entretien, puis mise à jour, de charger cet exe. Il va alors le décompresser, puis le mettre en file d'attente pour l'exécuion que tu porras faire au prochain rebbot.

C'est le plus simple. C'est comme cela que je mets à jour l'iDRAC, le BIOS...
Titre: Serveur Dell R330: Arret pour surcharge sans raison
Posté par: vivien le 01 novembre 2019 à 10:52:53
Tu peux tenter de mettre à jour les différents firmwares (alimentations ...) via Linux, Dell propose des fichiers .bin qui doivent fonctionner sur Ubuntu
Officiellement seul Red Hat Linux est supporté.

Il est aussi possible de télécharger la dernière mise à jour des PSU, un exe, puis dans la console iDRAC, je ne me rappelle plus où exactement, mais c'est du genre entretien, puis mise à jour, de charger cet exe. Il va alors le décompresser, puis le mettre en file d'attente pour l'exécuion que tu porras faire au prochain rebbot.

C'est le plus simple. C'est comme cela que je mets à jour l'iDRAC, le BIOS...
Ça ce serait l'idéal.

J'ai tenté avec la mise à jour du BIOS. Delle propose les version suivantes :

Update Package for Red Hat Linux : BIOS_DJ7XK_LN_2.7.1.BIN
Update Package for Microsoft® Windows® 64-Bit : BIOS_DJ7XK_WN64_2.7.1.EXE
Update Package for Microsoft® Windows® BIOS_DJ7XK_WN32_2.7.1.EXE
Hard-Drive : R330-020701.efi

J'ai donc pris la version efi "This file contains compressed content that can be executed from the EFI Shell or EFI Boot Manager. Download the file to the EFI partition on a removable media device. Insert the removable media, then reboot the system and run the program from the EFI Shell or EFI Boot Manager."

Dans le menu iDRAC, le seul endroit où j'ai trouvé la mise à jour, c'est là : (il me semble que c'est pour la mise à jour d'IDrac et non du système)

Le fichier "R330-020701.efi " est refusé :
(https://lafibre.info/images/materiel/201910_dell_poweredge_r330_3.png)

Le message sur l'inventaire du système peut ne pas être à jour, c'est normal j'ai désactivé la collecte de l'inventaire système à chaque reboot pour gagner de nombreuses minutes a chaque reboot.
RAC0604: L'inventaire du système peut ne pas être à jour car CSIOR (Collect System Inventory On Restart - Collecte de l'inventaire système au redémarrage) est désactivé. Activez CSIOR, redémarrez le système et relancez l'opération. Pour activer CSIOR, appuyez sur F2 (Configuration du système) pendant le démarrage du système, naviguez vers les paramètres d'iDRAC >Le Lifecycle Controller, puis sélectionnez l'option Activée pour la Collecte de l'inventaire système au redémarrage.
Titre: Serveur Dell R330: Arret pour surcharge sans raison
Posté par: alain_p le 01 novembre 2019 à 13:06:45
Je viens de regarder, pour un R430. J'ai mis à jour l'iDRAC à la dernière version, 2.70.70.70 qui date d'hier.

J'ai mis aussi à jour le BIOS, par le même moyen, avec le fichier : BIOS_VH9R0_WN64_2.10.5.EXE, qui date du 10 Septembre 2019.

C'est ce que je fais avec comme OS windows 2012 R2, et recherche sur BIOS. La machine est une Ubuntu, mais le BIOS est indépendant de l'OS
Titre: Serveur Dell R330: Arret pour surcharge sans raison
Posté par: Ilyazam le 03 novembre 2019 à 16:56:38
Officiellement seul Red Hat Linux est supporté.
Ça ce serait l'idéal.
Je l'ai fait sur du SLES 11 sur des R320/R720 sans souci. Je ne sais plus si c'était supporté officiellement ou non.
Titre: Serveur Dell R330: Arret pour surcharge sans raison
Posté par: vivien le 03 novembre 2019 à 20:48:17
Vous êtes trop fort !

Jamais je n'aurais eu l'idée d'uploder un fichier pour Windows 64bits dans le Drac pour une mise à jour au reboot...

(https://lafibre.info/images/materiel/201910_dell_poweredge_r330_4.png)

Cela marche parfaitement !


(https://lafibre.info/images/materiel/201910_dell_poweredge_r330_5.png)

(https://lafibre.info/images/materiel/201910_dell_poweredge_r330_6.png)

(https://lafibre.info/images/materiel/201910_dell_poweredge_r330_7.png)

(https://lafibre.info/images/materiel/201910_dell_poweredge_r330_8.png)
Titre: Serveur Dell R330: Arret pour surcharge sans raison
Posté par: vivien le 03 novembre 2019 à 20:53:55
Pour revenir à la mise à jour de l’alimentation, il y a bien une mise à jour du micrologiciel du bloc d’alimentation Liteon 350W (réf. 9WR03 et P7GV4), elle date de janvier 2019.

La version 06.08.0F, 06.08.0F apporte par contre uniquement la améliorations suivantes :
- Amélioration de la qualité
- Réduction du courant d’appel

La version d'avant est la 05.07.0D, A00 du 07 déc. 2012, celle qui équipe mon bloc d’alimentation.

J'ai lancé la mise à jour :
(https://lafibre.info/images/materiel/201910_dell_poweredge_r330_maj_psu_1.png)

Bel écran d'avertissement :
(https://lafibre.info/images/materiel/201910_dell_poweredge_r330_maj_psu_2.png)

La mise à jour :
(https://lafibre.info/images/materiel/201910_dell_poweredge_r330_maj_psu_3.png)

Mais malgré la mise à jour, pas de changement de la version du Micrologiciel :
(https://lafibre.info/images/materiel/201910_dell_poweredge_r330_maj_psu_4.png)

Vu que j'ai mis à jour le BIOS et le DRAC - ce dernier gérant l'alimentation, je pense que je suis bon.

PS : Nouvelle tentative de mise à jour de l’alimentation : (vidéo en vitesse x5)

https://lafibre.info/videos/materiel/201910_dell_poweredge_r330_maj_psu.mp4

Refus :
(https://lafibre.info/images/materiel/201910_dell_poweredge_r330_maj_psu_5.png)

Contrairement à la précédente upgrade, elle est marquée "Failed" :
(https://lafibre.info/images/materiel/201910_dell_poweredge_r330_maj_psu_6.png)

Toujours pas de mise à jour de l’alimentation :

(https://lafibre.info/images/materiel/201910_dell_poweredge_r330_maj_psu_7.png)
Titre: Serveur Dell R330: Arret pour surcharge sans raison
Posté par: vivien le 07 novembre 2019 à 22:36:32
Voici un autre serveur Dell PowerEdge R330, avec un hardware et version micro logiciel identique (seul différence il a juste plus de disques).

Je suis étonné de ce "Pic de watts consommés de 2617 w" !

Il est équipé de deux blocs d'alimentation 350 watts (puissance max de sortie) / 432 watts (puissance max d'entrée) :

(https://lafibre.info/images/materiel/201911_dell_poweredge_r330_1.png)
(https://lafibre.info/images/materiel/201911_dell_poweredge_r330_2.png)

Device Type PowerSupply
DeviceDescription    Power Supply 1
FQDD    PSU.Slot.1
FirmwareVersion    05.07.0D
InputVoltage    232 Volts
InstanceID    PSU.Slot.1
LastSystemInventoryTime 2018-08-25T09:32:17
LastUpdateTime    2019-11-08T02:35:46
Manufacturer    Dell
Model    PWR SPLY,350W,RDNT,LTON
PMBusMonitoring    1
PartNumber    09WR03A00
PrimaryStatus    OK
Range1MaxInputPower    432
RedMinNumberNeeded    1
RedundancyStatus    Fully Redundant
SerialNumber    CNLOD0079C2C5A
TotalOutputPower    350 Watts
Type    AC

A noter que les mises à jour réalisées semblent avoir effacées l'Historique des pics sur le serveur concerné par le problème.
Titre: Serveur Dell R330: Arret pour surcharge sans raison
Posté par: alain_p le 07 novembre 2019 à 22:53:50
Effectivement, surprenant de voir une valeur aussi élevée. Personnellement, je vois sur un R430 un pic de 208 W le 1er Novembre pour deux alims redondantes de 555 W. Bon, il n'est pas trop sollicité.

# omreport chassis pwrmonitoring
...
Power Tracking Statistics
Statistic               : Energy Consumption
Measurement Start Time  : Wed Nov 22 21:23:08 2017
Measurement Finish Time : Thu Nov  7 22:49:33 2019
Reading                 : 1728.1 kWh

Statistic              : System Peak Power
Measurement Start Time : Wed Nov 22 21:23:08 2017
Peak Time              : Fri Nov  1 11:46:17 2019
Peak Reading           : 208 W

Statistic              : System Peak Amperage
Measurement Start Time : Wed Nov 22 21:23:08 2017
Peak Time              : Fri Nov  1 11:46:17 2019
Peak Reading           : 1.2 A


Titre: Serveur Dell R330: Arret pour surcharge sans raison
Posté par: Taboin le 09 novembre 2019 à 11:56:33
Hey !

J’ai de temps en temps un serveur dell au boulot qui as ce genre d’erreur, il est équipé de 2 alimentations de 750W et des fois il affiche un pic de plus de 14kW de consommé   :o

Mais juste un seul pic et souvent la nuit, donc le lendemain on arrive et on voit ça dans les mails, on se demande ce que le serveur a fumé pendant la nuit  ;D
C’est un bug de la carte IDRAC ou des alimentations car nos onduleurs n’ont rapporté aucun pic sur la consommation pendant la nuit
Titre: Serveur Dell R330: Arret pour surcharge sans raison
Posté par: vivien le 11 novembre 2019 à 21:30:28
J'ai décidé de mettre à jour le serveur concerné puis de réinitialiser la partie "Historique des pics" pour voir si cela résout le problème.

Quelques copies d'écran des versions avant la mise à jour, si cela peut être utile à Dell :

(https://lafibre.info/images/materiel/201911_dell_poweredge_r330_3.png)

Les log qui permettent de voir tout l'historique sur les maintenances des voies A et B d'Interxion 2 Paris :
(https://lafibre.info/images/materiel/201911_dell_poweredge_r330_4.png)

(https://lafibre.info/images/materiel/201911_dell_poweredge_r330_5.png)

Historique des températures de l'air en entrée du serveur :

(https://lafibre.info/images/materiel/201911_dell_poweredge_r330_6.png)
Titre: Serveur Dell R330: Arret pour surcharge sans raison
Posté par: vivien le 11 novembre 2019 à 21:31:58
Les 3 mises à jour poussées (je ne tente pas la mise à jour des power supply) :
(https://lafibre.info/images/materiel/201911_dell_poweredge_r330_7.png)

Seulement deux job en attente de reboot !?
(https://lafibre.info/images/materiel/201911_dell_poweredge_r330_8.png)

Mais après 18 minutes de mises à jour au reboot, tout est ok :

(https://lafibre.info/images/materiel/201911_dell_poweredge_r330_9.png)
Titre: Serveur Dell R330: Arret pour surcharge sans raison
Posté par: vivien le 11 novembre 2019 à 21:36:49
Un peu hors sujet, mais je voulais suivre le vieillissement des SSD après près de deux ans d'hébergement des archives Ubuntu.

Je ne vois qu'un indicateur global "Endurance d'écriture évaluée restante" :

(https://lafibre.info/images/materiel/201911_dell_poweredge_r330_ssd_1.png)

J'espérais avoir dans les détails les indicateurs Smart habituels avec par exemple le nombre de To écrit sur chaque disque... mais non, Dell ne remonte pas à l’utilisateur ces informations alors que ce sont des SSD de marque Intel.
(https://lafibre.info/images/materiel/201911_dell_poweredge_r330_ssd_2.png)

Les autres menus :

(https://lafibre.info/images/materiel/201911_dell_poweredge_r330_ssd_3.png)

(https://lafibre.info/images/materiel/201911_dell_poweredge_r330_ssd_4.png)
Titre: Serveur Dell R330: Arret pour surcharge sans raison
Posté par: vivien le 12 janvier 2020 à 11:55:58
Suite à ces problème, j'ai déclenché un incident chez Dell.

Ils ont cherchés, cherchés, via une prise de contrôle à distance de l'iDrac, pas mal de chose a été vérifiées mais finalement, la réponse étant que les mises à jour faites devraient corriger, même si ce n'est pas dans le changelog.

Sur le serveur qui s'était arrêté au reboot avec un "The system halted because system power exceeds capacity" pas de problème, l'historique des pics de watts et d’ampères sont corrects :


(https://lafibre.info/images/materiel/202001_dell_poweredge_r330_1.png)
Titre: Serveur Dell R330: Arret pour surcharge sans raison
Posté par: vivien le 12 janvier 2020 à 11:57:50
Voici un autre serveur Dell PowerEdge R330, avec un hardware et version micro logiciel identique (seul différence il a juste plus de disques).

Je suis étonné de ce "Pic de watts consommés de 2617 w" !

Il est équipé de deux blocs d'alimentation 350 watts (puissance max de sortie) / 432 watts (puissance max d'entrée) :

Sur l'autre serveur, celui qui a un pic e 2617 watts, un serveur qui a été commandé en même temps eu les mêmes mises à jour, l'historique des pics de watts est ok, mais pas le pic d’ampères : 3,3 A est visiblement une donnée erronée au vu du pic de 82 watts qui lui semble pertinent.

(https://lafibre.info/images/materiel/202001_dell_poweredge_r330_2.png)

La seule hypothèse était une perte ou un retour d'alimentation aux mêmes dates et heure, mais ce n'est pas le cas :
(https://lafibre.info/images/materiel/202001_dell_poweredge_r330_3.png)

J'ai mis à jour le BIOS en version 2.8.1, version publiée il y a deux jours et qui apporte les modifications suivantes, mais je pense qu'il y a epu de chance que cela améliore les erreur de mesure de la consommation.


This release contains BIOS firmware version 2.8.1 for Dell PowerEdge R330/R230/T330/T130.
Enhanced BIOS security protection features.

Fixes
- None for this release.

Enhancements
- Enhancement to address the security vulnerabilities (Common Vulnerabilities and Exposures) such as CVE-2019-0117, CVE-2019-0123, CVE-2019-0124, CVE-2019-0151, CVE-2019-0184, CVE-2019-0185 and CVE-2019-11090.
- Updated Intel processor and memory reference codes to production version (PV) post launch release 5 (PLR5) Hotfix 2 v4.1.1.2.
- Updated the Intel Server Platform Services (SPS) and Manageability Engine (ME) firmware to production release SPS_E3_04.01.04.088.
- Updated the microcode of the following Intel processors to version 0xC6:
Intel Xeon Processor E3-1200 v6 Product Family
Intel Core Processor i3-7000 Product Family
Intel Pentium Processor G4600 Product Family
Intel Celeron Processor G3930 Product Family
- Updated the microcode of the following Intel processors to version 0xD4:
Intel Xeon Processor E3-1200 v5 Product Family
Intel Core Processor i3-6000 Product Family
Intel Pentium Processor G4400 or G4500 Product Family
Intel Celeron Processor G3900 Product Family
- Updated Intel TXT SINIT AC Module to version 1.7.4 and BIOS AC Module to version 1.6.0.
(https://lafibre.info/images/materiel/202001_dell_poweredge_r330_4.png)