Auteur Sujet: Serveur Dell avec Xeon cadencé à moins de 200Mhz (pourquoi ?)  (Lu 10992 fois)

0 Membres et 1 Invité sur ce sujet

Kldint

  • Abonné Orange Fibre
  • *
  • Messages: 74
  • Paris 14 (75)
Xeon qui se sous-cadence à moins de 200Mhz (pourquoi ?)
« Réponse #12 le: 09 février 2016 à 21:46:57 »
Je parlais de la commande cpufreq-set et non pas cpufreq-info :)

user@host:~$ sudo cpufreq-set -g userspace
user@host:~$ sudo cpufreq-set -f 800Mhz

vivien

  • Administrateur
  • *
  • Messages: 47 085
    • Twitter LaFibre.info
Xeon qui se sous-cadence à moins de 200Mhz (pourquoi ?)
« Réponse #13 le: 09 février 2016 à 21:55:09 »
Voila :

# cpufreq-set -g userspace
En ajustant les nouveaux paramètres, une erreur est apparue. Les sources
d'erreur typique sont :
- droit d'administration insuffisant (êtes-vous root ?) ;
- le régulateur choisi n'est pas disponible, ou bien n'est pas disponible en
  tant que module noyau ;
- la tactique n'est pas disponible ;
- vous voulez utiliser l'option -f/--freq, mais le régulateur « userspace »
  n'est pas disponible, par exemple parce que le matériel ne le supporte
  pas, ou bien n'est tout simplement pas chargé.

# cpufreq-set -f 800Mhz
En ajustant les nouveaux paramètres, une erreur est apparue. Les sources
d'erreur typique sont :
- droit d'administration insuffisant (êtes-vous root ?) ;
- le régulateur choisi n'est pas disponible, ou bien n'est pas disponible en
  tant que module noyau ;
- la tactique n'est pas disponible ;
- vous voulez utiliser l'option -f/--freq, mais le régulateur « userspace »
  n'est pas disponible, par exemple parce que le matériel ne le supporte
  pas, ou bien n'est tout simplement pas chargé.

butler_fr

  • Client Bbox adsl
  • Modérateur
  • *
  • Messages: 3 605
  • FTTH orange
Xeon qui se sous-cadence à moins de 200Mhz (pourquoi ?)
« Réponse #14 le: 09 février 2016 à 22:08:18 »
au boulot on a de temps en temps des problèmes sur des serveurs dell (r420 / m520 et m620 entre autres) qui restent bloqués en mode éco avec exactement le même problème que toi
normalement un arrêt + redémarrage de la machine résout le problème...

tu peux peut être tenté arrêt plus débranchement électrique pendant quelques secondes (j'ai réglé un problème de drac freezé comme ça)

butler_fr

  • Client Bbox adsl
  • Modérateur
  • *
  • Messages: 3 605
  • FTTH orange
Xeon qui se sous-cadence à moins de 200Mhz (pourquoi ?)
« Réponse #15 le: 09 février 2016 à 22:11:38 »
sinon nous on passe le bios en mode max perf pour éviter ça (ça coupe le mode éco)

vivien

  • Administrateur
  • *
  • Messages: 47 085
    • Twitter LaFibre.info
Xeon qui se sous-cadence à moins de 200Mhz (pourquoi ?)
« Réponse #16 le: 09 février 2016 à 22:14:01 »
Là c'est plus que le mode éco : c'est le mode tortue...

Je n'ai pas le serveur sous la main, mais un déplacement s'impose.

Les impacts en terme de charge CPU :


Et de load average :

Kldint

  • Abonné Orange Fibre
  • *
  • Messages: 74
  • Paris 14 (75)
Xeon qui se sous-cadence à moins de 200Mhz (pourquoi ?)
« Réponse #17 le: 09 février 2016 à 22:18:48 »
Si tu as l'utilitaire racadm, et que ton serveur a un IDRAC 7 (c'est ce que j'ai cru lire). Tu peux essayer de configurer directement dans ton OS:

   racadm set bios.SysProfileSettings.SysProfile Custom
   racadm set BIOS.SysProfileSettings.ProcPwrPerf MaxPerf

La liste des commandes disponibles est disponible ici: http://www.gnali.org/?p=435

vivien

  • Administrateur
  • *
  • Messages: 47 085
    • Twitter LaFibre.info
Serveur Dell avec Xeon cadencé à moins de 200Mhz (pourquoi ?)
« Réponse #18 le: 09 février 2016 à 22:33:22 »
Non, non pas d'IDRAC 7 sur ce serveur, c'est le "Basic Management" (je ne sais pas a quoi cela correspond)

Voici ce que propose Dell en 2016 sur un serveur de la même gamme :
- Basic Management [soustraire 150,00 €]
- iDRAC7 Express [Inclus dans le prix]
- iDRAC7 Enterprise [ajouter 230,00 €]
- iDRAC7 Enterprise with Vflash, 8GB SD Card [ajouter 280,00 €]
- iDRAC7 Enterprise with Vflash, 16GB SD Card [ajouter 315,00 €]

Kldint

  • Abonné Orange Fibre
  • *
  • Messages: 74
  • Paris 14 (75)
Serveur Dell avec Xeon cadencé à moins de 200Mhz (pourquoi ?)
« Réponse #19 le: 09 février 2016 à 22:44:04 »
Le Basic Management correspond au niveau le plus bas de possibilité, tu as uniquement les fonctions de base dans l'IDRAC.

Il y a une doc qui indique:



Donc normalement tu devrais avoir accès aux commandes que je t'ai donné.

hwti

  • Abonné Orange Fibre
  • *
  • Messages: 2 237
  • Chambly (60)
Serveur Dell avec Xeon cadencé à moins de 200Mhz (pourquoi ?)
« Réponse #20 le: 09 février 2016 à 22:48:51 »
Je trouve que 40°, c'est déjà assez chaud pour un processeur à 200MHz.
La fréquence minimum étant à 1,2GHz, tout ce qui est en dessous correspond à du "throttling", c'est-à-dire qu'il fonctionne à la fréquence minimum, mais par intermittence. Normalement il y a des traces, mais je ne vois rien dans le dmesg posté.

Qu'est-ce qu'il y a dans :
/sys/devices/system/cpu/cpu0/thermal_throttle/core_throttle_count
/sys/devices/system/cpu/cpu0/thermal_throttle/package_throttle_count
/sys/devices/system/cpu/intel_pstate/min_perf_pct
/sys/devices/system/cpu/intel_pstate/max_perf_pct
/sys/devices/system/cpu/cpu0/cpufreq/cpuinfo_cur_freq
/sys/devices/system/cpu/cpu0/cpufreq/scaling_cur_freq

EDIT et aussi côté limite de puissance (RAPL) :
/sys/class/powercap/intel-rapl:0/constraint_0_name
/sys/class/powercap/intel-rapl:0/constraint_0_max_power_uw
/sys/class/powercap/intel-rapl:0/constraint_0_power_limit_uw
et pareil pour constraint_1 si elle existe
Ce n'est peut-être pas intel-rapl:0, à voir en fonction de name : "package-0" par exemple.
Dans mon cas j'ai :
 - long_term, 130000000 (130W), 1000000000 (1000W, ça doit être parce que le CPU est overclocké)
 - short_term, 0, 1000000000

vivien

  • Administrateur
  • *
  • Messages: 47 085
    • Twitter LaFibre.info
Serveur Dell avec Xeon cadencé à moins de 200Mhz (pourquoi ?)
« Réponse #21 le: 10 février 2016 à 01:52:14 »
Voici les données en rouge du serveur qui pose problème et en vert de son jumeaux (même hardware) équipé du même noyau mais qui n'a aucun pb de fréquence :

# cat /sys/devices/system/cpu/cpu0/thermal_throttle/core_throttle_count
- 0
- 0

# cat /sys/devices/system/cpu/cpu0/thermal_throttle/package_throttle_count
- 0
- 0

# cat /sys/devices/system/cpu/intel_pstate/min_perf_pct
- 37
- 37

# cat /sys/devices/system/cpu/intel_pstate/max_perf_pct
- 100
- 100

# cat /sys/devices/system/cpu/cpu0/cpufreq/cpuinfo_cur_freq
- 182328
- 1257156

# cat /sys/devices/system/cpu/cpu0/cpufreq/scaling_cur_freq
- 182437
- 1199953

# cat /sys/class/powercap/intel-rapl:0/constraint_0_name
- long_term
- long_term

# cat /sys/class/powercap/intel-rapl:0/constraint_0_max_power_uw
- 80000000
- 80000000

# cat /sys/class/powercap/intel-rapl:0/constraint_0_power_limit_uw
- 80000000
- 80000000

# cat /sys/class/powercap/intel-rapl:0/constraint_1_name
- short_term
- short_term

# cat /sys/class/powercap/intel-rapl:0/constraint_1_max_power_uw
- 105000000
- 105000000

# cat /sys/class/powercap/intel-rapl:0/constraint_1_power_limit_uw
- 96000000
- 96000000

hwti

  • Abonné Orange Fibre
  • *
  • Messages: 2 237
  • Chambly (60)
Serveur Dell avec Xeon cadencé à moins de 200Mhz (pourquoi ?)
« Réponse #22 le: 10 février 2016 à 02:54:14 »
Je ne sais pas si on pourra tout interpréter, mais avec les traces du driver intel_pstate, on peut vérifier qu'il demande bien un p-state correct au CPU :
# cd /sys/kernel/debug/tracing/
# echo 1 > events/power/pstate_sample/enable
# cat trace
# echo 0 > events/power/pstate_sample/enable

ou alors, pour voir directement les valeur qui ont été programmées (normalement il n'y a qu'intel_pstate qui y touche, mais on ne sait jamais) :
# modprobe msr
# rdmsr 0x199
0x199 c'est MSR_IA32_PERF_CTL, au repos on devrait avoir "c00" (0xc => 12 => 1200Mhz demandés)

vivien

  • Administrateur
  • *
  • Messages: 47 085
    • Twitter LaFibre.info
Serveur Dell avec Xeon cadencé à moins de 200Mhz (pourquoi ?)
« Réponse #23 le: 10 février 2016 à 07:23:06 »
Je m’appétait à faire la trace et... la fréquence est revenue à la normale !

$ cat /proc/cpuinfo | grep "cpu MHz"
cpu MHz      : 1199.953
cpu MHz      : 1199.953
cpu MHz      : 1226.750
cpu MHz      : 1205.750
cpu MHz      : 1199.953
cpu MHz      : 1199.953
cpu MHz      : 1199.953
cpu MHz      : 1199.953

# cpufreq-info
cpufrequtils 008: cpufreq-info (C) Dominik Brodowski 2004-2009
Veuillez rapportez les erreurs et les bogues à cpufreq@vger.kernel.org, s'il vous plait.
analyse du CPU 0 :
  pilote : intel_pstate
  CPUs which run at the same hardware frequency: 0
  CPUs which need to have their frequency coordinated by software: 0
  maximum transition latency: 0.97 ms.
  limitation matérielle : 1.20 GHz - 3.20 GHz
  régulateurs disponibles : performance, powersave
  tactique actuelle : la fréquence doit être comprise entre 1.20 GHz et 3.20 GHz.
                  Le régulateur "powersave" est libre de choisir la vitesse
                  dans cette plage de fréquences.
  la fréquence actuelle de ce CPU est 1.20 GHz (vérifié par un appel direct du matériel).
analyse du CPU 1 :
  pilote : intel_pstate
  CPUs which run at the same hardware frequency: 1
  CPUs which need to have their frequency coordinated by software: 1
  maximum transition latency: 0.97 ms.
  limitation matérielle : 1.20 GHz - 3.20 GHz
  régulateurs disponibles : performance, powersave
  tactique actuelle : la fréquence doit être comprise entre 1.20 GHz et 3.20 GHz.
                  Le régulateur "powersave" est libre de choisir la vitesse
                  dans cette plage de fréquences.
  la fréquence actuelle de ce CPU est 1.20 GHz (vérifié par un appel direct du matériel).
analyse du CPU 2 :
  pilote : intel_pstate
  CPUs which run at the same hardware frequency: 2
  CPUs which need to have their frequency coordinated by software: 2
  maximum transition latency: 0.97 ms.
  limitation matérielle : 1.20 GHz - 3.20 GHz
  régulateurs disponibles : performance, powersave
  tactique actuelle : la fréquence doit être comprise entre 1.20 GHz et 3.20 GHz.
                  Le régulateur "powersave" est libre de choisir la vitesse
                  dans cette plage de fréquences.
  la fréquence actuelle de ce CPU est 1.22 GHz (vérifié par un appel direct du matériel).
analyse du CPU 3 :
  pilote : intel_pstate
  CPUs which run at the same hardware frequency: 3
  CPUs which need to have their frequency coordinated by software: 3
  maximum transition latency: 0.97 ms.
  limitation matérielle : 1.20 GHz - 3.20 GHz
  régulateurs disponibles : performance, powersave
  tactique actuelle : la fréquence doit être comprise entre 1.20 GHz et 3.20 GHz.
                  Le régulateur "powersave" est libre de choisir la vitesse
                  dans cette plage de fréquences.
  la fréquence actuelle de ce CPU est 1.20 GHz (vérifié par un appel direct du matériel).
analyse du CPU 4 :
  pilote : intel_pstate
  CPUs which run at the same hardware frequency: 4
  CPUs which need to have their frequency coordinated by software: 4
  maximum transition latency: 0.97 ms.
  limitation matérielle : 1.20 GHz - 3.20 GHz
  régulateurs disponibles : performance, powersave
  tactique actuelle : la fréquence doit être comprise entre 1.20 GHz et 3.20 GHz.
                  Le régulateur "powersave" est libre de choisir la vitesse
                  dans cette plage de fréquences.
  la fréquence actuelle de ce CPU est 1.20 GHz (vérifié par un appel direct du matériel).
analyse du CPU 5 :
  pilote : intel_pstate
  CPUs which run at the same hardware frequency: 5
  CPUs which need to have their frequency coordinated by software: 5
  maximum transition latency: 0.97 ms.
  limitation matérielle : 1.20 GHz - 3.20 GHz
  régulateurs disponibles : performance, powersave
  tactique actuelle : la fréquence doit être comprise entre 1.20 GHz et 3.20 GHz.
                  Le régulateur "powersave" est libre de choisir la vitesse
                  dans cette plage de fréquences.
  la fréquence actuelle de ce CPU est 1.20 GHz (vérifié par un appel direct du matériel).
analyse du CPU 6 :
  pilote : intel_pstate
  CPUs which run at the same hardware frequency: 6
  CPUs which need to have their frequency coordinated by software: 6
  maximum transition latency: 0.97 ms.
  limitation matérielle : 1.20 GHz - 3.20 GHz
  régulateurs disponibles : performance, powersave
  tactique actuelle : la fréquence doit être comprise entre 1.20 GHz et 3.20 GHz.
                  Le régulateur "powersave" est libre de choisir la vitesse
                  dans cette plage de fréquences.
  la fréquence actuelle de ce CPU est 1.20 GHz (vérifié par un appel direct du matériel).
analyse du CPU 7 :
  pilote : intel_pstate
  CPUs which run at the same hardware frequency: 7
  CPUs which need to have their frequency coordinated by software: 7
  maximum transition latency: 0.97 ms.
  limitation matérielle : 1.20 GHz - 3.20 GHz
  régulateurs disponibles : performance, powersave
  tactique actuelle : la fréquence doit être comprise entre 1.20 GHz et 3.20 GHz.
                  Le régulateur "powersave" est libre de choisir la vitesse
                  dans cette plage de fréquences.
  la fréquence actuelle de ce CPU est 1.20 GHz (vérifié par un appel direct du matériel).

Les impacts en terme de charge CPU :


Et de load average :


La température du CPU a baissée de deux degrés alors que la fréquence est censée avoir fortement augmentée : (j'ai déchargé plusieurs process, car sinon c'était vraiment lent pour chaque commande)
# sensors
coretemp-isa-0000
Adapter: ISA adapter
Physical id 0:  +41.0°C  (high = +80.0°C, crit = +90.0°C)
Core 0:         +36.0°C  (high = +80.0°C, crit = +90.0°C)
Core 1:         +41.0°C  (high = +80.0°C, crit = +90.0°C)
Core 2:         +37.0°C  (high = +80.0°C, crit = +90.0°C)
Core 3:         +41.0°C  (high = +80.0°C, crit = +90.0°C)

Température lors de la crise à 180 Mhz :
Physical id 0:  +43.0°C  (high = +80.0°C, crit = +90.0°C)
Core 0:         +39.0°C  (high = +80.0°C, crit = +90.0°C)
Core 1:         +43.0°C  (high = +80.0°C, crit = +90.0°C)
Core 2:         +40.0°C  (high = +80.0°C, crit = +90.0°C)
Core 3:         +43.0°C  (high = +80.0°C, crit = +90.0°C)