La Fibre

Datacenter et équipements réseaux => Équipements réseaux => Serveurs NAS, serveurs et micro-serveurs => Discussion démarrée par: vivien le 09 février 2016 à 20:44:48

Titre: Serveur Dell avec Xeon cadencé à moins de 200Mhz (pourquoi ?)
Posté par: vivien le 09 février 2016 à 20:44:48
J'ai un problème sur un serveur Dell : depuis ce matin tout est lent, la charge a explosée.

J'ai essayé de comprendre l'origine, mais c'est comme si le serveur était très lent.

J'ai fini par faire un cat /proc/cpuinfo et surprise : mes 4 cœurs Hyper-Threading du Xeon E5-1410 @2.80GHz sont cadencés à moins de 200 Mhz !

Vous avez une idée de la cause du problème ? (un reboot ne change rien)
# cat /proc/cpuinfo
processor : 0
vendor_id : GenuineIntel
cpu family : 6
model : 45
model name : Intel(R) Xeon(R) CPU E5-1410 0 @ 2.80GHz
stepping : 7
microcode : 0x710
cpu MHz : 183.531
cache size : 10240 KB
physical id : 0
siblings : 8
core id : 0
cpu cores : 4
apicid : 0
initial apicid : 0
fpu : yes
fpu_exception : yes
cpuid level : 13
wp : yes
flags : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx pdpe1gb rdtscp lm constant_tsc arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc aperfmperf eagerfpu pni pclmulqdq dtes64 monitor ds_cpl vmx smx est tm2 ssse3 cx16 xtpr pdcm pcid dca sse4_1 sse4_2 x2apic popcnt tsc_deadline_timer aes xsave avx lahf_lm ida arat epb pln pts dtherm tpr_shadow vnmi flexpriority ept vpid xsaveopt
bugs :
bogomips : 5599.45
clflush size : 64
cache_alignment : 64
address sizes : 46 bits physical, 48 bits virtual
power management:

processor : 1
vendor_id : GenuineIntel
cpu family : 6
model : 45
model name : Intel(R) Xeon(R) CPU E5-1410 0 @ 2.80GHz
stepping : 7
microcode : 0x710
cpu MHz : 179.921
cache size : 10240 KB
physical id : 0
siblings : 8
core id : 1
cpu cores : 4
apicid : 2
initial apicid : 2
fpu : yes
fpu_exception : yes
cpuid level : 13
wp : yes
flags : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx pdpe1gb rdtscp lm constant_tsc arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc aperfmperf eagerfpu pni pclmulqdq dtes64 monitor ds_cpl vmx smx est tm2 ssse3 cx16 xtpr pdcm pcid dca sse4_1 sse4_2 x2apic popcnt tsc_deadline_timer aes xsave avx lahf_lm ida arat epb pln pts dtherm tpr_shadow vnmi flexpriority ept vpid xsaveopt
bugs :
bogomips : 5599.45
clflush size : 64
cache_alignment : 64
address sizes : 46 bits physical, 48 bits virtual
power management:

processor : 2
vendor_id : GenuineIntel
cpu family : 6
model : 45
model name : Intel(R) Xeon(R) CPU E5-1410 0 @ 2.80GHz
stepping : 7
microcode : 0x710
cpu MHz : 183.531
cache size : 10240 KB
physical id : 0
siblings : 8
core id : 2
cpu cores : 4
apicid : 4
initial apicid : 4
fpu : yes
fpu_exception : yes
cpuid level : 13
wp : yes
flags : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx pdpe1gb rdtscp lm constant_tsc arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc aperfmperf eagerfpu pni pclmulqdq dtes64 monitor ds_cpl vmx smx est tm2 ssse3 cx16 xtpr pdcm pcid dca sse4_1 sse4_2 x2apic popcnt tsc_deadline_timer aes xsave avx lahf_lm ida arat epb pln pts dtherm tpr_shadow vnmi flexpriority ept vpid xsaveopt
bugs :
bogomips : 5599.45
clflush size : 64
cache_alignment : 64
address sizes : 46 bits physical, 48 bits virtual
power management:

processor : 3
vendor_id : GenuineIntel
cpu family : 6
model : 45
model name : Intel(R) Xeon(R) CPU E5-1410 0 @ 2.80GHz
stepping : 7
microcode : 0x710
cpu MHz : 181.562
cache size : 10240 KB
physical id : 0
siblings : 8
core id : 3
cpu cores : 4
apicid : 6
initial apicid : 6
fpu : yes
fpu_exception : yes
cpuid level : 13
wp : yes
flags : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx pdpe1gb rdtscp lm constant_tsc arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc aperfmperf eagerfpu pni pclmulqdq dtes64 monitor ds_cpl vmx smx est tm2 ssse3 cx16 xtpr pdcm pcid dca sse4_1 sse4_2 x2apic popcnt tsc_deadline_timer aes xsave avx lahf_lm ida arat epb pln pts dtherm tpr_shadow vnmi flexpriority ept vpid xsaveopt
bugs :
bogomips : 5599.45
clflush size : 64
cache_alignment : 64
address sizes : 46 bits physical, 48 bits virtual
power management:

processor : 4
vendor_id : GenuineIntel
cpu family : 6
model : 45
model name : Intel(R) Xeon(R) CPU E5-1410 0 @ 2.80GHz
stepping : 7
microcode : 0x710
cpu MHz : 165.484
cache size : 10240 KB
physical id : 0
siblings : 8
core id : 0
cpu cores : 4
apicid : 1
initial apicid : 1
fpu : yes
fpu_exception : yes
cpuid level : 13
wp : yes
flags : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx pdpe1gb rdtscp lm constant_tsc arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc aperfmperf eagerfpu pni pclmulqdq dtes64 monitor ds_cpl vmx smx est tm2 ssse3 cx16 xtpr pdcm pcid dca sse4_1 sse4_2 x2apic popcnt tsc_deadline_timer aes xsave avx lahf_lm ida arat epb pln pts dtherm tpr_shadow vnmi flexpriority ept vpid xsaveopt
bugs :
bogomips : 5599.45
clflush size : 64
cache_alignment : 64
address sizes : 46 bits physical, 48 bits virtual
power management:

processor : 5
vendor_id : GenuineIntel
cpu family : 6
model : 45
model name : Intel(R) Xeon(R) CPU E5-1410 0 @ 2.80GHz
stepping : 7
microcode : 0x710
cpu MHz : 162.531
cache size : 10240 KB
physical id : 0
siblings : 8
core id : 1
cpu cores : 4
apicid : 3
initial apicid : 3
fpu : yes
fpu_exception : yes
cpuid level : 13
wp : yes
flags : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx pdpe1gb rdtscp lm constant_tsc arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc aperfmperf eagerfpu pni pclmulqdq dtes64 monitor ds_cpl vmx smx est tm2 ssse3 cx16 xtpr pdcm pcid dca sse4_1 sse4_2 x2apic popcnt tsc_deadline_timer aes xsave avx lahf_lm ida arat epb pln pts dtherm tpr_shadow vnmi flexpriority ept vpid xsaveopt
bugs :
bogomips : 5599.45
clflush size : 64
cache_alignment : 64
address sizes : 46 bits physical, 48 bits virtual
power management:

processor : 6
vendor_id : GenuineIntel
cpu family : 6
model : 45
model name : Intel(R) Xeon(R) CPU E5-1410 0 @ 2.80GHz
stepping : 7
microcode : 0x710
cpu MHz : 165.156
cache size : 10240 KB
physical id : 0
siblings : 8
core id : 2
cpu cores : 4
apicid : 5
initial apicid : 5
fpu : yes
fpu_exception : yes
cpuid level : 13
wp : yes
flags : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx pdpe1gb rdtscp lm constant_tsc arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc aperfmperf eagerfpu pni pclmulqdq dtes64 monitor ds_cpl vmx smx est tm2 ssse3 cx16 xtpr pdcm pcid dca sse4_1 sse4_2 x2apic popcnt tsc_deadline_timer aes xsave avx lahf_lm ida arat epb pln pts dtherm tpr_shadow vnmi flexpriority ept vpid xsaveopt
bugs :
bogomips : 5599.45
clflush size : 64
cache_alignment : 64
address sizes : 46 bits physical, 48 bits virtual
power management:

processor : 7
vendor_id : GenuineIntel
cpu family : 6
model : 45
model name : Intel(R) Xeon(R) CPU E5-1410 0 @ 2.80GHz
stepping : 7
microcode : 0x710
cpu MHz : 162.093
cache size : 10240 KB
physical id : 0
siblings : 8
core id : 3
cpu cores : 4
apicid : 7
initial apicid : 7
fpu : yes
fpu_exception : yes
cpuid level : 13
wp : yes
flags : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx pdpe1gb rdtscp lm constant_tsc arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc aperfmperf eagerfpu pni pclmulqdq dtes64 monitor ds_cpl vmx smx est tm2 ssse3 cx16 xtpr pdcm pcid dca sse4_1 sse4_2 x2apic popcnt tsc_deadline_timer aes xsave avx lahf_lm ida arat epb pln pts dtherm tpr_shadow vnmi flexpriority ept vpid xsaveopt
bugs :
bogomips : 5599.45
clflush size : 64
cache_alignment : 64
address sizes : 46 bits physical, 48 bits virtual
power management:

Edit : problème corrigé dans un nouveau firmware :
Firmware 02.04.02 (ReleaseDate: January 30, 2015)

What’s New :
- Updated Intel Xeon processor E5-2400 V2 product family microcode to 428.
- Updated Intel chipset configuration compliant with latest BIOS specification updates Rev (2.0.8 ).
- Updated Intel Management Engine (ME) binary to Rev 2.1.5. 0x8B, to address issues that resulted in unexpected temporary or permanent Processor frequency degradation.
- Updated Intel SINIT Authenticated Code Module to SINIT ACM 2.4.
- Made improvements to the System Setup user interface when Console Redirection is enabled.
- Updated iDRAC HII configurator UEFI driver to v1.65.65.04.
- Updated BIOS Copyright as 2015 Dell Inc.

Fixes :
- Corrected an issue where VMware ESXi 5.1.x, QLE24xx cards stop responding during disk I/O when Intel Xeon E5-2400 V2 family of processors is used.
- Corrected a system crash issue while performing the change security key operation under 'Integrated RAID Controller PERC 710' Configuration Utility by using mouse.
Titre: Xeon qui se sous-cadence à moins de 200Mhz (pourquoi ?)
Posté par: buddy le 09 février 2016 à 20:47:02
Tu n'as pas un soucis de température ?

Aucun warning sur les températures dans les logs ?
Titre: Xeon qui se sous-cadence à moins de 200Mhz (pourquoi ?)
Posté par: vivien le 09 février 2016 à 20:51:11
Leur température n'est pas excessive :

$ sensors
coretemp-isa-0000
Adapter: ISA adapter
Physical id 0:  +43.0°C  (high = +80.0°C, crit = +90.0°C)
Core 0:         +39.0°C  (high = +80.0°C, crit = +90.0°C)
Core 1:         +43.0°C  (high = +80.0°C, crit = +90.0°C)
Core 2:         +40.0°C  (high = +80.0°C, crit = +90.0°C)
Core 3:         +43.0°C  (high = +80.0°C, crit = +90.0°C)

Il y a des logs activé par défaut à regarder ?
Titre: Xeon qui se sous-cadence à moins de 200Mhz (pourquoi ?)
Posté par: buddy le 09 février 2016 à 20:53:29
non, moi j'avais eu et vu l'alerte dans /var/log/messages je pense. Je n'ai pas les commandes sous la main par contre malheureusement.
Titre: Xeon qui se sous-cadence à moins de 200Mhz (pourquoi ?)
Posté par: Kldint le 09 février 2016 à 20:58:48
As-tu fais une mise à jour récemment ?

Peut être as tu un soft qui contrôle la fréquence du CPU qui tourne et le fait tourner au plus bas (regarde du côté cpufreq) ?

EDIT: Ton serveur physique est un DELL ?
Titre: Xeon qui se sous-cadence à moins de 200Mhz (pourquoi ?)
Posté par: vivien le 09 février 2016 à 21:02:31
Pas de mise à jour manuelle, ni automatiques à cette heure là.

Mon serveur physique est un Dell PowerEdge R320

Voici le dmesg : https://lafibre.info/testdebit/ubuntu/201602_dmesg_serveur_xeon_e5-1510.txt
Titre: Xeon qui se sous-cadence à moins de 200Mhz (pourquoi ?)
Posté par: Kldint le 09 février 2016 à 21:06:08
Que te dit un cpufreq-info -g ?

Le dmesg a pas l'air de dire grand chose d'anormal à propos du CPU...

Il y'a un topic là a propos d'un problème similaire: http://en.community.dell.com/support-forums/servers/f/956/t/19616718
Titre: Xeon qui se sous-cadence à moins de 200Mhz (pourquoi ?)
Posté par: BadMax le 09 février 2016 à 21:20:56
D'abord fait une mise à jour du BIOS. Les outils Dell existent pour certaines distributions Linux. Certaines étapes sont parfois à faire directement depuis le BIOS avec une clé USB ou avec un CD bootable (à télécharger chez Dell).

Ensuite, vérifie dans le BIOS dans les paramètres du CPU s'il y a des options sur l'économie d'énergie.

Sinon je m'interroge sur ton kernel 4.2.0, la dernière ligne du dmesg me laisse penser qu'il y a des problèmes récurrents mais difficile d'être sûr qu'on est dans le même cas.
Titre: Xeon qui se sous-cadence à moins de 200Mhz (pourquoi ?)
Posté par: vivien le 09 février 2016 à 21:26:40
Ce qui st étonnant, c'est le caractère brutal (il fonctionnait bien jusqu'à ce matin)

# cpufreq-info -g
performance powersave

# cpufreq-info -d
intel_pstate

# cpufreq-info -o
         Fréquence CPU minimale - Fréquence CPU maximale  - régulateur
CPU  0      1200000 kHz ( 37 %)  -    3200000 kHz (100 %)  -  powersave
CPU  1      1200000 kHz ( 37 %)  -    3200000 kHz (100 %)  -  powersave
CPU  2      1200000 kHz ( 37 %)  -    3200000 kHz (100 %)  -  powersave
CPU  3      1200000 kHz ( 37 %)  -    3200000 kHz (100 %)  -  powersave
CPU  4      1200000 kHz ( 37 %)  -    3200000 kHz (100 %)  -  powersave
CPU  5      1200000 kHz ( 37 %)  -    3200000 kHz (100 %)  -  powersave
CPU  6      1200000 kHz ( 37 %)  -    3200000 kHz (100 %)  -  powersave
CPU  7      1200000 kHz ( 37 %)  -    3200000 kHz (100 %)  -  powersave


# cpufreq-info
cpufrequtils 008: cpufreq-info (C) Dominik Brodowski 2004-2009
Veuillez rapportez les erreurs et les bogues à cpufreq@vger.kernel.org, s'il vous plait.
analyse du CPU 0 :
  pilote : intel_pstate
  CPUs which run at the same hardware frequency: 0
  CPUs which need to have their frequency coordinated by software: 0
  maximum transition latency: 0.97 ms.
  limitation matérielle : 1.20 GHz - 3.20 GHz
  régulateurs disponibles : performance, powersave
  tactique actuelle : la fréquence doit être comprise entre 1.20 GHz et 3.20 GHz.
                  Le régulateur "powersave" est libre de choisir la vitesse
                  dans cette plage de fréquences.
  la fréquence actuelle de ce CPU est 180 MHz (vérifié par un appel direct du matériel).
analyse du CPU 1 :
  pilote : intel_pstate
  CPUs which run at the same hardware frequency: 1
  CPUs which need to have their frequency coordinated by software: 1
  maximum transition latency: 0.97 ms.
  limitation matérielle : 1.20 GHz - 3.20 GHz
  régulateurs disponibles : performance, powersave
  tactique actuelle : la fréquence doit être comprise entre 1.20 GHz et 3.20 GHz.
                  Le régulateur "powersave" est libre de choisir la vitesse
                  dans cette plage de fréquences.
  la fréquence actuelle de ce CPU est 177 MHz (vérifié par un appel direct du matériel).
analyse du CPU 2 :
  pilote : intel_pstate
  CPUs which run at the same hardware frequency: 2
  CPUs which need to have their frequency coordinated by software: 2
  maximum transition latency: 0.97 ms.
  limitation matérielle : 1.20 GHz - 3.20 GHz
  régulateurs disponibles : performance, powersave
  tactique actuelle : la fréquence doit être comprise entre 1.20 GHz et 3.20 GHz.
                  Le régulateur "powersave" est libre de choisir la vitesse
                  dans cette plage de fréquences.
  la fréquence actuelle de ce CPU est 182 MHz (vérifié par un appel direct du matériel).
analyse du CPU 3 :
  pilote : intel_pstate
  CPUs which run at the same hardware frequency: 3
  CPUs which need to have their frequency coordinated by software: 3
  maximum transition latency: 0.97 ms.
  limitation matérielle : 1.20 GHz - 3.20 GHz
  régulateurs disponibles : performance, powersave
  tactique actuelle : la fréquence doit être comprise entre 1.20 GHz et 3.20 GHz.
                  Le régulateur "powersave" est libre de choisir la vitesse
                  dans cette plage de fréquences.
  la fréquence actuelle de ce CPU est 180 MHz (vérifié par un appel direct du matériel).
analyse du CPU 4 :
  pilote : intel_pstate
  CPUs which run at the same hardware frequency: 4
  CPUs which need to have their frequency coordinated by software: 4
  maximum transition latency: 0.97 ms.
  limitation matérielle : 1.20 GHz - 3.20 GHz
  régulateurs disponibles : performance, powersave
  tactique actuelle : la fréquence doit être comprise entre 1.20 GHz et 3.20 GHz.
                  Le régulateur "powersave" est libre de choisir la vitesse
                  dans cette plage de fréquences.
  la fréquence actuelle de ce CPU est 164 MHz (vérifié par un appel direct du matériel).
analyse du CPU 5 :
  pilote : intel_pstate
  CPUs which run at the same hardware frequency: 5
  CPUs which need to have their frequency coordinated by software: 5
  maximum transition latency: 0.97 ms.
  limitation matérielle : 1.20 GHz - 3.20 GHz
  régulateurs disponibles : performance, powersave
  tactique actuelle : la fréquence doit être comprise entre 1.20 GHz et 3.20 GHz.
                  Le régulateur "powersave" est libre de choisir la vitesse
                  dans cette plage de fréquences.
  la fréquence actuelle de ce CPU est 164 MHz (vérifié par un appel direct du matériel).
analyse du CPU 6 :
  pilote : intel_pstate
  CPUs which run at the same hardware frequency: 6
  CPUs which need to have their frequency coordinated by software: 6
  maximum transition latency: 0.97 ms.
  limitation matérielle : 1.20 GHz - 3.20 GHz
  régulateurs disponibles : performance, powersave
  tactique actuelle : la fréquence doit être comprise entre 1.20 GHz et 3.20 GHz.
                  Le régulateur "powersave" est libre de choisir la vitesse
                  dans cette plage de fréquences.
  la fréquence actuelle de ce CPU est 163 MHz (vérifié par un appel direct du matériel).
analyse du CPU 7 :
  pilote : intel_pstate
  CPUs which run at the same hardware frequency: 7
  CPUs which need to have their frequency coordinated by software: 7
  maximum transition latency: 0.97 ms.
  limitation matérielle : 1.20 GHz - 3.20 GHz
  régulateurs disponibles : performance, powersave
  tactique actuelle : la fréquence doit être comprise entre 1.20 GHz et 3.20 GHz.
                  Le régulateur "powersave" est libre de choisir la vitesse
                  dans cette plage de fréquences.
  la fréquence actuelle de ce CPU est 163 MHz (vérifié par un appel direct du matériel).
Titre: Xeon qui se sous-cadence à moins de 200Mhz (pourquoi ?)
Posté par: vivien le 09 février 2016 à 21:39:13
Sinon je m'interroge sur ton kernel 4.2.0, la dernière ligne du dmesg me laisse penser qu'il y a des problèmes récurrents mais difficile d'être sûr qu'on est dans le même cas.

J'ai cette même ligne sur d'autres serveurs identiques physiquement avec le même noyau ou un autre : (et ils fonctionnent très bien)

Ce serveur avec un pb de fréquences CPU :
[ 1559.388442] perf interrupt took too long (2756 > 2500), lowering kernel.perf_event_max_sample_rate to 50000
[ 2754.549958] perf interrupt took too long (5115 > 5000), lowering kernel.perf_event_max_sample_rate to 25000


Un autre, même hardware, même Linux 4.2 ok:
[13507.524971] perf interrupt took too long (2512 > 2500), lowering kernel.perf_event_max_sample_rate to 50000
[64987.273218] perf interrupt took too long (5003 > 5000), lowering kernel.perf_event_max_sample_rate to 25000


Un autre, même hardware, Linux 3.13 ok :
[81499.736302] perf samples too long (2522 > 2500), lowering kernel.perf_event_max_sample_rate to 50000
[210276.522062] perf samples too long (5015 > 5000), lowering kernel.perf_event_max_sample_rate to 25000

Titre: Xeon qui se sous-cadence à moins de 200Mhz (pourquoi ?)
Posté par: Kldint le 09 février 2016 à 21:40:23
C'est pour ça que je pense à une mauvaise régulation du CPU.
Ton serveur est double alimenté je suppose ? As-tu regardé dans tes logs de l'IDRAC une info spécifique (perte d'alim, etc?)

essaye de passer ton cpu en mode forcé:
cpufreq-set -f 800Mhz
Titre: Xeon qui se sous-cadence à moins de 200Mhz (pourquoi ?)
Posté par: vivien le 09 février 2016 à 21:46:04
Serveur double alimenté, mais je n'ai pas l'info (pas de carte iDrac avec une IP)
Une alim suffit amplement pour l'ensemble du serveur.

# cpufreq-set -f 1200Mhz
En ajustant les nouveaux paramètres, une erreur est apparue. Les sources
d'erreur typique sont :
- droit d'administration insuffisant (êtes-vous root ?) ;
- le régulateur choisi n'est pas disponible, ou bien n'est pas disponible en
  tant que module noyau ;
- la tactique n'est pas disponible ;
- vous voulez utiliser l'option -f/--freq, mais le régulateur « userspace »
  n'est pas disponible, par exemple parce que le matériel ne le supporte
  pas, ou bien n'est tout simplement pas chargé.
Titre: Xeon qui se sous-cadence à moins de 200Mhz (pourquoi ?)
Posté par: Kldint le 09 février 2016 à 21:46:57
Je parlais de la commande cpufreq-set et non pas cpufreq-info :)

user@host:~$ sudo cpufreq-set -g userspace
user@host:~$ sudo cpufreq-set -f 800Mhz
Titre: Xeon qui se sous-cadence à moins de 200Mhz (pourquoi ?)
Posté par: vivien le 09 février 2016 à 21:55:09
Voila :

# cpufreq-set -g userspace
En ajustant les nouveaux paramètres, une erreur est apparue. Les sources
d'erreur typique sont :
- droit d'administration insuffisant (êtes-vous root ?) ;
- le régulateur choisi n'est pas disponible, ou bien n'est pas disponible en
  tant que module noyau ;
- la tactique n'est pas disponible ;
- vous voulez utiliser l'option -f/--freq, mais le régulateur « userspace »
  n'est pas disponible, par exemple parce que le matériel ne le supporte
  pas, ou bien n'est tout simplement pas chargé.

# cpufreq-set -f 800Mhz
En ajustant les nouveaux paramètres, une erreur est apparue. Les sources
d'erreur typique sont :
- droit d'administration insuffisant (êtes-vous root ?) ;
- le régulateur choisi n'est pas disponible, ou bien n'est pas disponible en
  tant que module noyau ;
- la tactique n'est pas disponible ;
- vous voulez utiliser l'option -f/--freq, mais le régulateur « userspace »
  n'est pas disponible, par exemple parce que le matériel ne le supporte
  pas, ou bien n'est tout simplement pas chargé.
Titre: Xeon qui se sous-cadence à moins de 200Mhz (pourquoi ?)
Posté par: butler_fr le 09 février 2016 à 22:08:18
au boulot on a de temps en temps des problèmes sur des serveurs dell (r420 / m520 et m620 entre autres) qui restent bloqués en mode éco avec exactement le même problème que toi
normalement un arrêt + redémarrage de la machine résout le problème...

tu peux peut être tenté arrêt plus débranchement électrique pendant quelques secondes (j'ai réglé un problème de drac freezé comme ça)
Titre: Xeon qui se sous-cadence à moins de 200Mhz (pourquoi ?)
Posté par: butler_fr le 09 février 2016 à 22:11:38
sinon nous on passe le bios en mode max perf pour éviter ça (ça coupe le mode éco)
Titre: Xeon qui se sous-cadence à moins de 200Mhz (pourquoi ?)
Posté par: vivien le 09 février 2016 à 22:14:01
Là c'est plus que le mode éco : c'est le mode tortue...

Je n'ai pas le serveur sous la main, mais un déplacement s'impose.

Les impacts en terme de charge CPU :
(https://lafibre.info/testdebit/ubuntu/201602_serveur_xeon_e5-1510_pb_freq_cpu.png)

Et de load average :
(https://lafibre.info/testdebit/ubuntu/201602_serveur_xeon_e5-1510_pb_freq_load.png)
Titre: Xeon qui se sous-cadence à moins de 200Mhz (pourquoi ?)
Posté par: Kldint le 09 février 2016 à 22:18:48
Si tu as l'utilitaire racadm, et que ton serveur a un IDRAC 7 (c'est ce que j'ai cru lire). Tu peux essayer de configurer directement dans ton OS:

   racadm set bios.SysProfileSettings.SysProfile Custom
   racadm set BIOS.SysProfileSettings.ProcPwrPerf MaxPerf

La liste des commandes disponibles est disponible ici: http://www.gnali.org/?p=435
Titre: Serveur Dell avec Xeon cadencé à moins de 200Mhz (pourquoi ?)
Posté par: vivien le 09 février 2016 à 22:33:22
Non, non pas d'IDRAC 7 sur ce serveur, c'est le "Basic Management" (je ne sais pas a quoi cela correspond)

Voici ce que propose Dell en 2016 sur un serveur de la même gamme :
- Basic Management [soustraire 150,00 €]
- iDRAC7 Express [Inclus dans le prix]
- iDRAC7 Enterprise [ajouter 230,00 €]
- iDRAC7 Enterprise with Vflash, 8GB SD Card [ajouter 280,00 €]
- iDRAC7 Enterprise with Vflash, 16GB SD Card [ajouter 315,00 €]
Titre: Serveur Dell avec Xeon cadencé à moins de 200Mhz (pourquoi ?)
Posté par: Kldint le 09 février 2016 à 22:44:04
Le Basic Management correspond au niveau le plus bas de possibilité, tu as uniquement les fonctions de base dans l'IDRAC.

Il y a une doc qui indique:
(https://dl.kldint.fr/screenshots/support1dell.png)
(https://dl.kldint.fr/screenshots/support2dell.png)

Donc normalement tu devrais avoir accès aux commandes que je t'ai donné.
Titre: Serveur Dell avec Xeon cadencé à moins de 200Mhz (pourquoi ?)
Posté par: hwti le 09 février 2016 à 22:48:51
Je trouve que 40°, c'est déjà assez chaud pour un processeur à 200MHz.
La fréquence minimum étant à 1,2GHz, tout ce qui est en dessous correspond à du "throttling", c'est-à-dire qu'il fonctionne à la fréquence minimum, mais par intermittence. Normalement il y a des traces, mais je ne vois rien dans le dmesg posté.

Qu'est-ce qu'il y a dans :
/sys/devices/system/cpu/cpu0/thermal_throttle/core_throttle_count
/sys/devices/system/cpu/cpu0/thermal_throttle/package_throttle_count
/sys/devices/system/cpu/intel_pstate/min_perf_pct
/sys/devices/system/cpu/intel_pstate/max_perf_pct
/sys/devices/system/cpu/cpu0/cpufreq/cpuinfo_cur_freq
/sys/devices/system/cpu/cpu0/cpufreq/scaling_cur_freq

EDIT et aussi côté limite de puissance (RAPL) :
/sys/class/powercap/intel-rapl:0/constraint_0_name
/sys/class/powercap/intel-rapl:0/constraint_0_max_power_uw
/sys/class/powercap/intel-rapl:0/constraint_0_power_limit_uw
et pareil pour constraint_1 si elle existe
Ce n'est peut-être pas intel-rapl:0, à voir en fonction de name : "package-0" par exemple.
Dans mon cas j'ai :
 - long_term, 130000000 (130W), 1000000000 (1000W, ça doit être parce que le CPU est overclocké)
 - short_term, 0, 1000000000
Titre: Serveur Dell avec Xeon cadencé à moins de 200Mhz (pourquoi ?)
Posté par: vivien le 10 février 2016 à 01:52:14
Voici les données en rouge du serveur qui pose problème et en vert de son jumeaux (même hardware) équipé du même noyau mais qui n'a aucun pb de fréquence :

# cat /sys/devices/system/cpu/cpu0/thermal_throttle/core_throttle_count
- 0
- 0

# cat /sys/devices/system/cpu/cpu0/thermal_throttle/package_throttle_count
- 0
- 0

# cat /sys/devices/system/cpu/intel_pstate/min_perf_pct
- 37
- 37

# cat /sys/devices/system/cpu/intel_pstate/max_perf_pct
- 100
- 100

# cat /sys/devices/system/cpu/cpu0/cpufreq/cpuinfo_cur_freq
- 182328
- 1257156

# cat /sys/devices/system/cpu/cpu0/cpufreq/scaling_cur_freq
- 182437
- 1199953

# cat /sys/class/powercap/intel-rapl:0/constraint_0_name
- long_term
- long_term

# cat /sys/class/powercap/intel-rapl:0/constraint_0_max_power_uw
- 80000000
- 80000000

# cat /sys/class/powercap/intel-rapl:0/constraint_0_power_limit_uw
- 80000000
- 80000000

# cat /sys/class/powercap/intel-rapl:0/constraint_1_name
- short_term
- short_term

# cat /sys/class/powercap/intel-rapl:0/constraint_1_max_power_uw
- 105000000
- 105000000

# cat /sys/class/powercap/intel-rapl:0/constraint_1_power_limit_uw
- 96000000
- 96000000
Titre: Serveur Dell avec Xeon cadencé à moins de 200Mhz (pourquoi ?)
Posté par: hwti le 10 février 2016 à 02:54:14
Je ne sais pas si on pourra tout interpréter, mais avec les traces du driver intel_pstate, on peut vérifier qu'il demande bien un p-state correct au CPU :
# cd /sys/kernel/debug/tracing/
# echo 1 > events/power/pstate_sample/enable
# cat trace
# echo 0 > events/power/pstate_sample/enable

ou alors, pour voir directement les valeur qui ont été programmées (normalement il n'y a qu'intel_pstate qui y touche, mais on ne sait jamais) :
# modprobe msr
# rdmsr 0x199
0x199 c'est MSR_IA32_PERF_CTL, au repos on devrait avoir "c00" (0xc => 12 => 1200Mhz demandés)
Titre: Serveur Dell avec Xeon cadencé à moins de 200Mhz (pourquoi ?)
Posté par: vivien le 10 février 2016 à 07:23:06
Je m’appétait à faire la trace et... la fréquence est revenue à la normale !

$ cat /proc/cpuinfo | grep "cpu MHz"
cpu MHz      : 1199.953
cpu MHz      : 1199.953
cpu MHz      : 1226.750
cpu MHz      : 1205.750
cpu MHz      : 1199.953
cpu MHz      : 1199.953
cpu MHz      : 1199.953
cpu MHz      : 1199.953

# cpufreq-info
cpufrequtils 008: cpufreq-info (C) Dominik Brodowski 2004-2009
Veuillez rapportez les erreurs et les bogues à cpufreq@vger.kernel.org, s'il vous plait.
analyse du CPU 0 :
  pilote : intel_pstate
  CPUs which run at the same hardware frequency: 0
  CPUs which need to have their frequency coordinated by software: 0
  maximum transition latency: 0.97 ms.
  limitation matérielle : 1.20 GHz - 3.20 GHz
  régulateurs disponibles : performance, powersave
  tactique actuelle : la fréquence doit être comprise entre 1.20 GHz et 3.20 GHz.
                  Le régulateur "powersave" est libre de choisir la vitesse
                  dans cette plage de fréquences.
  la fréquence actuelle de ce CPU est 1.20 GHz (vérifié par un appel direct du matériel).
analyse du CPU 1 :
  pilote : intel_pstate
  CPUs which run at the same hardware frequency: 1
  CPUs which need to have their frequency coordinated by software: 1
  maximum transition latency: 0.97 ms.
  limitation matérielle : 1.20 GHz - 3.20 GHz
  régulateurs disponibles : performance, powersave
  tactique actuelle : la fréquence doit être comprise entre 1.20 GHz et 3.20 GHz.
                  Le régulateur "powersave" est libre de choisir la vitesse
                  dans cette plage de fréquences.
  la fréquence actuelle de ce CPU est 1.20 GHz (vérifié par un appel direct du matériel).
analyse du CPU 2 :
  pilote : intel_pstate
  CPUs which run at the same hardware frequency: 2
  CPUs which need to have their frequency coordinated by software: 2
  maximum transition latency: 0.97 ms.
  limitation matérielle : 1.20 GHz - 3.20 GHz
  régulateurs disponibles : performance, powersave
  tactique actuelle : la fréquence doit être comprise entre 1.20 GHz et 3.20 GHz.
                  Le régulateur "powersave" est libre de choisir la vitesse
                  dans cette plage de fréquences.
  la fréquence actuelle de ce CPU est 1.22 GHz (vérifié par un appel direct du matériel).
analyse du CPU 3 :
  pilote : intel_pstate
  CPUs which run at the same hardware frequency: 3
  CPUs which need to have their frequency coordinated by software: 3
  maximum transition latency: 0.97 ms.
  limitation matérielle : 1.20 GHz - 3.20 GHz
  régulateurs disponibles : performance, powersave
  tactique actuelle : la fréquence doit être comprise entre 1.20 GHz et 3.20 GHz.
                  Le régulateur "powersave" est libre de choisir la vitesse
                  dans cette plage de fréquences.
  la fréquence actuelle de ce CPU est 1.20 GHz (vérifié par un appel direct du matériel).
analyse du CPU 4 :
  pilote : intel_pstate
  CPUs which run at the same hardware frequency: 4
  CPUs which need to have their frequency coordinated by software: 4
  maximum transition latency: 0.97 ms.
  limitation matérielle : 1.20 GHz - 3.20 GHz
  régulateurs disponibles : performance, powersave
  tactique actuelle : la fréquence doit être comprise entre 1.20 GHz et 3.20 GHz.
                  Le régulateur "powersave" est libre de choisir la vitesse
                  dans cette plage de fréquences.
  la fréquence actuelle de ce CPU est 1.20 GHz (vérifié par un appel direct du matériel).
analyse du CPU 5 :
  pilote : intel_pstate
  CPUs which run at the same hardware frequency: 5
  CPUs which need to have their frequency coordinated by software: 5
  maximum transition latency: 0.97 ms.
  limitation matérielle : 1.20 GHz - 3.20 GHz
  régulateurs disponibles : performance, powersave
  tactique actuelle : la fréquence doit être comprise entre 1.20 GHz et 3.20 GHz.
                  Le régulateur "powersave" est libre de choisir la vitesse
                  dans cette plage de fréquences.
  la fréquence actuelle de ce CPU est 1.20 GHz (vérifié par un appel direct du matériel).
analyse du CPU 6 :
  pilote : intel_pstate
  CPUs which run at the same hardware frequency: 6
  CPUs which need to have their frequency coordinated by software: 6
  maximum transition latency: 0.97 ms.
  limitation matérielle : 1.20 GHz - 3.20 GHz
  régulateurs disponibles : performance, powersave
  tactique actuelle : la fréquence doit être comprise entre 1.20 GHz et 3.20 GHz.
                  Le régulateur "powersave" est libre de choisir la vitesse
                  dans cette plage de fréquences.
  la fréquence actuelle de ce CPU est 1.20 GHz (vérifié par un appel direct du matériel).
analyse du CPU 7 :
  pilote : intel_pstate
  CPUs which run at the same hardware frequency: 7
  CPUs which need to have their frequency coordinated by software: 7
  maximum transition latency: 0.97 ms.
  limitation matérielle : 1.20 GHz - 3.20 GHz
  régulateurs disponibles : performance, powersave
  tactique actuelle : la fréquence doit être comprise entre 1.20 GHz et 3.20 GHz.
                  Le régulateur "powersave" est libre de choisir la vitesse
                  dans cette plage de fréquences.
  la fréquence actuelle de ce CPU est 1.20 GHz (vérifié par un appel direct du matériel).

Les impacts en terme de charge CPU :
(https://lafibre.info/testdebit/ubuntu/201602_serveur_xeon_e5-1510_pb_freq_cpu_2.png)

Et de load average :
(https://lafibre.info/testdebit/ubuntu/201602_serveur_xeon_e5-1510_pb_freq_load_2.png)

La température du CPU a baissée de deux degrés alors que la fréquence est censée avoir fortement augmentée : (j'ai déchargé plusieurs process, car sinon c'était vraiment lent pour chaque commande)
# sensors
coretemp-isa-0000
Adapter: ISA adapter
Physical id 0:  +41.0°C  (high = +80.0°C, crit = +90.0°C)
Core 0:         +36.0°C  (high = +80.0°C, crit = +90.0°C)
Core 1:         +41.0°C  (high = +80.0°C, crit = +90.0°C)
Core 2:         +37.0°C  (high = +80.0°C, crit = +90.0°C)
Core 3:         +41.0°C  (high = +80.0°C, crit = +90.0°C)

Température lors de la crise à 180 Mhz :
Physical id 0:  +43.0°C  (high = +80.0°C, crit = +90.0°C)
Core 0:         +39.0°C  (high = +80.0°C, crit = +90.0°C)
Core 1:         +43.0°C  (high = +80.0°C, crit = +90.0°C)
Core 2:         +40.0°C  (high = +80.0°C, crit = +90.0°C)
Core 3:         +43.0°C  (high = +80.0°C, crit = +90.0°C)
Titre: Serveur Dell avec Xeon cadencé à moins de 200Mhz (pourquoi ?)
Posté par: alain_p le 10 février 2016 à 08:23:59
Tant mieux si c'est revenu. Mais si cela se reproduit, est-ce que ton serveur est toujours sous garantie (de base 3 ans chez Dell, mais c'est mieux de prendre 5) ? Si c'est le cas, il vaut mieux pour ce genre de problème appeler le support qui est plutôt bon chez Dell. Ils sauront peut-être quoi faire, auront des remontées de cas similaires, ou pourront escalader le problème si besoin.
Titre: Serveur Dell avec Xeon cadencé à moins de 200Mhz (pourquoi ?)
Posté par: vivien le 10 février 2016 à 08:57:47
Non, une seule année de garantie (les années de garanties supplèmentaire sont facturée fort cher et Dell est vraiment fiable, comparé à d'autres comme IBM - la principal objet de panne, c'est le disque dur, que je prend en SATA pour pouvoir le changer pour pas cher, un disque SAS n'étant pas garantie de longue vie et les disques sont hors de prix chez Dell - cela coûte moins cher de laisser le disque SATA de 500 Go d'origine et de s'acheter un disque à coté, que de demander un disque SATA haute capacité)

Sinon, je suis dans l’avant-dernière version du firmware (Version 02.03.03 Release Date: July 14, 2014) et dans la dernière version il y a une mise à jour de l'Intel Management Engine qui semble adresser le problème rencontré :

Firmware 02.04.02 (ReleaseDate: January 30, 2015)

What’s New :
- Updated Intel Xeon processor E5-2400 V2 product family microcode to 428.
- Updated Intel chipset configuration compliant with latest BIOS specification updates Rev (2.0.8 ).
- Updated Intel Management Engine (ME) binary to Rev 2.1.5. 0x8B, to address issues that resulted in unexpected temporary or permanent Processor frequency degradation.
- Updated Intel SINIT Authenticated Code Module to SINIT ACM 2.4.
- Made improvements to the System Setup user interface when Console Redirection is enabled.
- Updated iDRAC HII configurator UEFI driver to v1.65.65.04.
- Updated BIOS Copyright as 2015 Dell Inc.

Fixes :
- Corrected an issue where VMware ESXi 5.1.x, QLE24xx cards stop responding during disk I/O when Intel Xeon E5-2400 V2 family of processors is used.
- Corrected a system crash issue while performing the change security key operation under 'Integrated RAID Controller PERC 710' Configuration Utility by using mouse.
Titre: Serveur Dell avec Xeon cadencé à moins de 200Mhz (pourquoi ?)
Posté par: alain_p le 10 février 2016 à 09:09:10
Je crois effectivement qu'avec ce firmware update, tu as trouvé la cause de tes ennuis, et si c'est mentionné, c'est que d'autres l'ont déjà rencontré.