La Fibre

Télécom => Logiciels et systèmes d'exploitation => Linux Linux (usage serveur) => Discussion démarrée par: vivien le 02 juillet 2018 à 20:00:04

Titre: Perte du réseau 10Gb/s (driver i40e) depuis le passage au Kernel 4.15
Posté par: vivien le 02 juillet 2018 à 20:00:04
J'ai encore un souci avec les cartes réseau 10 Gb/s Intel X710-DA2 ou plutôt son driver Linux i40e depuis le passage en Kernel 4.15

Copie d'écran via iDrac :
(https://lafibre.info/testdebit/ubuntu/201807_bug_driver_i40e_kernel_415.png)

Aujourd'hui, 2 juillet 2018, Les Ubuntu 16.04 LTS avec le LTS Enablement Stacks basculent sur le kernel 4.15, celui d'Ubuntu 18.04, en remplacement de celui 4.13 d'Ubuntu 17.10.

Pour rappel, il ya deux Kernel possible pour Ubuntu 16.04 :  Soit l'ancien Kernel 4.4 soit un Kernel qui change tous les 6 mois
(https://lafibre.info/testdebit/ubuntu/201604_ubuntu_kernel_support.svg)

Au redémarrage avec le nouveau noyau, je n'ai plus de réseau.

J'ai les 3 lignes qui s'affichent boucle :
[   92.892084] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 9, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[   92.892105] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 10, hung_queue 9
[   92.892111] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery unsuccessful


le log du boot en filtrant sur i40e :

[    1.798460] i40e: Intel(R) Ethernet Connection XL710 Network Driver - version 2.1.14-k
[    1.798472] i40e: Copyright (c) 2013 - 2014 Intel Corporation.
[    1.859777] i40e 0000:01:00.0: fw 5.0.40043 api 1.5 nvm 5.05 0x80002899 0.0.0
[    2.151338] i40e 0000:01:00.0: MAC address: 3c:fd:fe:1d:76:60
[    2.207253] i40e 0000:01:00.0 eth0: NIC Link is Up, 10 Gbps Full Duplex, Flow Control: RX/TX
[    2.255584] i40e 0000:01:00.0: PCI-Express: Speed 8.0GT/s Width x8
[    2.281368] i40e 0000:01:00.0: Features: PF-id[0] VFs: 64 VSIs: 66 QP: 16 RSS FD_ATR FD_SB NTUPLE DCB VxLAN Geneve PTP VEPA
[    2.293600] i40e 0000:01:00.1: fw 5.0.40043 api 1.5 nvm 5.05 0x80002899 0.0.0
[    2.535991] i40e 0000:01:00.1: MAC address: 3c:fd:fe:1d:76:62
[    2.540775] i40e 0000:01:00.1: PCI-Express: Speed 8.0GT/s Width x8
[    2.541473] i40e 0000:01:00.1: Features: PF-id[1] VFs: 64 VSIs: 66 QP: 8 RSS FD_ATR FD_SB NTUPLE DCB VxLAN Geneve PTP VEPA
[    2.542460] i40e 0000:01:00.1 enp1s0f1: renamed from eth1
[    2.569209] i40e 0000:01:00.0 enp1s0f0: renamed from eth0
[   11.996100] NETDEV WATCHDOG: enp1s0f0 (i40e): transmit queue 14 timed out
[   11.996154]  crc32_pclmul mgag200 i2c_algo_bit ghash_clmulni_intel pcbc ttm drm_kms_helper syscopyarea sysfillrect sysimgblt fb_sys_fops aesni_intel i40e aes_x86_64 tg3 crypto_simd glue_helper ahci cryptd drm ptp libahci megaraid_sas pps_core wmi video
[   11.996233] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 14, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[   11.996235] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 14
[   11.996936] i40e 0000:01:00.0: VSI seid 388 Tx ring 8 disable timeout
[   17.884082] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 11, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[   17.884088] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 2, hung_queue 11
[   17.934628] i40e 0000:01:00.0: VSI seid 388 Tx ring 8 disable timeout
[   26.844091] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 9, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[   26.844096] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 3, hung_queue 9
[   26.894536] i40e 0000:01:00.0: VSI seid 388 Tx ring 8 disable timeout
[   30.028390] i40e 0000:01:00.0 enp1s0f0: NIC Link is Down
[   35.138371] i40e 0000:01:00.0 enp1s0f0: NIC Link is Up, 10 Gbps Full Duplex, Flow Control: None
[   36.716774] i40e 0000:01:00.0: VSI seid 388 Tx ring 8 disable timeout
[   46.812083] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 9, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[   46.812088] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 4, hung_queue 9
[   46.812089] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery unsuccessful
[   51.932083] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 9, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[   51.932088] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 5, hung_queue 9
[   51.932090] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery unsuccessful
[   61.916082] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 9, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[   61.916087] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 6, hung_queue 9
[   61.916088] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery unsuccessful
[   71.900082] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 9, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[   71.900105] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 7, hung_queue 9
[   71.900110] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery unsuccessful
[   77.020082] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 9, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[   77.020103] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 8, hung_queue 9
[   77.020108] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery unsuccessful
[   82.908081] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 9, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[   82.908101] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 9, hung_queue 9
[   82.908107] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery unsuccessful
[   92.892084] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 9, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[   92.892105] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 10, hung_queue 9
[   92.892111] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery unsuccessful
[   98.012098] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 8, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[   98.012119] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 11, hung_queue 8
[   98.012125] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery unsuccessful

A quoi corespond ce tx_timeout recovery ?
Titre: Perte du réseau 10Gb/s (driver i40e) depuis le passage au Kernel 4.15
Posté par: vivien le 02 juillet 2018 à 20:03:39
D'autres personnes qui utilisent le driver i40e ont eu le problème ? (je n'ai rien trouvé sur https://bugs.launchpad.net/ubuntu )

Faites attention au prochain reboot pour ceux qui on une carte qui utilise le driver i40e et qui sont sous Ubuntu LTS Enablement Stacks. La bascule vers le Kernel 4.15 est automatique lors du prochain reboot.

En basculant via Grub sur l'ancien Kernel, le 4.13.0.45, aucun problème.
(https://lafibre.info/testdebit/ubuntu/201806_ubuntu_lts_enablement_stacks.png)

La carte Intel Ethernet Converged Network Adapter X710-DA2 :

(https://lafibre.info/images/materiel/201703_Dell_PowerEdge_R330_Intel_X710-DA2_8.jpg)
Titre: Perte du réseau 10Gb/s (driver i40e) depuis le passage au Kernel 4.15
Posté par: vivien le 02 juillet 2018 à 22:28:22
Bug ouvert : https://bugs.launchpad.net/ubuntu/+source/linux-meta-hwe/+bug/1779756

Edit : This bug was fixed in the package linux - 4.15.0-48.51
Titre: Perte du réseau 10Gb/s (driver i40e) depuis le passage au Kernel 4.15
Posté par: hwti le 03 juillet 2018 à 01:37:47
Les commits ultérieurs qui semblent intéressants : https://github.com/torvalds/linux/commit/07d44190a38939adfec6177a6e1b683417da291f, et https://github.com/torvalds/linux/commit/04d4105174349dceccf9545a3e5e421c18f2cc56.

Tu peux éventuellement tester des kernels mainline (https://wiki.ubuntu.com/Kernel/MainlineBuilds) : un 4.16 aura le premier commit, un 4.17 les deux.
Titre: Perte du réseau 10Gb/s (driver i40e) depuis le passage au Kernel 4.15
Posté par: zoc le 10 juillet 2018 à 10:21:09
C'est un peu hors sujet, mais depuis que j'ai passé mon serveur mail (16.04 LTS, postfix + dovecot) au kernel 4.15 j'ai plein de problèmes de stabilité avec NFS (client), sachant que mes boites mail sont sur un NAS Synology partagé en NFSv3: Liste de fichiers dans les répertoires/propriétaires/droits totalement fantaisistes au bout de quelques heures...

Le problème disparait en repassant en 4.13...
Titre: Perte du réseau 10Gb/s (driver i40e) depuis le passage au Kernel 4.15
Posté par: vivien le 24 juillet 2018 à 13:44:00
Nouvelle tentative avec le kernel 4.15.0-29-generic + mise à jour du BIOS du serveur Dell PowerEdge R330 (de la version 2.0.8 à la version 2.5.0) et mise à jour du Firmware de la carte Intel Ethernet Converged Network Adapter X710-DA2 (de la version 17.5.12 à la version 18.5.17)

Cela fonctionne un peu, mais j'ai encore régulièrement des erreurs :
$ dmesg | grep i40e
[    1.754001] i40e: Intel(R) Ethernet Connection XL710 Network Driver - version 2.1.14-k
[    1.773765] i40e: Copyright (c) 2013 - 2014 Intel Corporation.
[    1.813550] i40e 0000:01:00.0: fw 6.80.48812 api 1.7 nvm 6.00 0x80003751 18.5.17
[    2.093649] i40e 0000:01:00.0: MAC address: 3c:fd:fe:1d:76:60
[    2.147837] i40e 0000:01:00.0 eth0: NIC Link is Up, 10 Gbps Full Duplex, Flow Control: None
[    2.159581] i40e 0000:01:00.0: PCI-Express: Speed 8.0GT/s Width x8
[    2.169064] i40e 0000:01:00.0: Features: PF-id[0] VFs: 64 VSIs: 66 QP: 16 RSS FD_ATR FD_SB NTUPLE DCB VxLAN Geneve PTP VEPA
[    2.181300] i40e 0000:01:00.1: fw 6.80.48812 api 1.7 nvm 6.00 0x80003751 18.5.17
[    2.425649] i40e 0000:01:00.1: MAC address: 3c:fd:fe:1d:76:62
[    2.430388] i40e 0000:01:00.1: PCI-Express: Speed 8.0GT/s Width x8
[    2.431153] i40e 0000:01:00.1: Features: PF-id[1] VFs: 64 VSIs: 66 QP: 8 RSS FD_ATR FD_SB NTUPLE DCB VxLAN Geneve PTP VEPA
[    2.432199] i40e 0000:01:00.0 enp1s0f0: renamed from eth0
[    2.472204] i40e 0000:01:00.1 enp1s0f1: renamed from eth1
[    9.948085] NETDEV WATCHDOG: enp1s0f0 (i40e): transmit queue 1 timed out
[    9.948120]  crc32_pclmul ghash_clmulni_intel pcbc mgag200 i2c_algo_bit ttm drm_kms_helper aesni_intel syscopyarea i40e aes_x86_64 sysfillrect crypto_simd sysimgblt tg3 glue_helper fb_sys_fops ahci cryptd drm libahci ptp megaraid_sas pps_core wmi video
[    9.948205] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 1, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[    9.948206] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 1
[    9.948537] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[   15.836086] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 3, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[   15.836092] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 2, hung_queue 3
[   15.886149] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[  155.868081] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 13, NTC: 0x0, HWB: 0x0, NTU: 0x1ec, TAIL: 0x1ec, INT: 0x1
[  155.868104] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 13
[  155.869033] i40e 0000:01:00.0: VSI seid 388 Tx ring 8 disable timeout
[  165.852082] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 7, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[  165.852106] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 2, hung_queue 7
[  165.902223] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[  295.899292] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 15, NTC: 0x0, HWB: 0x0, NTU: 0x1eb, TAIL: 0x1eb, INT: 0x1
[  295.899316] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 15
[  295.900183] i40e 0000:01:00.0: VSI seid 388 Tx ring 8 disable timeout
[  338.907284] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 0, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[  338.907307] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 0
[  338.907729] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[  349.915269] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 7, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[  349.915292] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 2, hung_queue 7
[  349.965382] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[  466.902254] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 8, NTC: 0x0, HWB: 0x0, NTU: 0x1eb, TAIL: 0x1eb, INT: 0x1
[  466.902275] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 8
[  466.903135] i40e 0000:01:00.0: VSI seid 388 Tx ring 8 disable timeout
[  498.901630] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 0, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[  498.901636] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 0
[  498.902016] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[  530.901171] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 0, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[  530.901176] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 0
[  530.901561] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[  594.900266] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 0, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[  594.900289] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 0
[  594.900707] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[  605.908110] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 6, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[  605.908132] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 2, hung_queue 6
[  605.908589] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[  738.002231] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 13, NTC: 0x0, HWB: 0x0, NTU: 0x1eb, TAIL: 0x1eb, INT: 0x1
[  738.002259] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 13
[  738.003122] i40e 0000:01:00.0: VSI seid 388 Tx ring 8 disable timeout
[  770.001773] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 7, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[  770.001797] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 7
[  770.002211] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[  781.009615] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 4, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[  781.009638] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 2, hung_queue 4
[  781.059690] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[  892.882005] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 12, NTC: 0x0, HWB: 0x0, NTU: 0x15d, TAIL: 0x15d, INT: 0x1
[  892.882035] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 12
[  892.882942] i40e 0000:01:00.0: VSI seid 388 Tx ring 8 disable timeout
[ 1308.878559] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 4, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[ 1308.878569] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 4
[ 1308.878987] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 1345.998183] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 4, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[ 1345.998189] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 4
[ 1345.998579] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 1362.894027] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 4, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[ 1362.894031] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 2, hung_queue 4
[ 1362.944156] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 1463.757373] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 13, NTC: 0x0, HWB: 0x0, NTU: 0x1ec, TAIL: 0x1ec, INT: 0x1
[ 1463.757397] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 13
[ 1463.758291] i40e 0000:01:00.0: VSI seid 388 Tx ring 8 disable timeout
[ 1490.893275] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 4, NTC: 0x0, HWB: 0x0, NTU: 0x4, TAIL: 0x4, INT: 0x1
[ 1490.893286] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 4
[ 1490.893642] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 1549.004924] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 4, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[ 1549.004947] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 4
[ 1549.005371] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 1559.756871] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 4, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[ 1559.756894] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 2, hung_queue 4
[ 1559.807022] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 1572.812775] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 9, NTC: 0x0, HWB: 0x0, NTU: 0x16, TAIL: 0x16, INT: 0x1
[ 1572.812798] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 3, hung_queue 9
[ 1572.863340] i40e 0000:01:00.0: VSI seid 388 Tx ring 8 disable timeout
[ 1575.990199] i40e 0000:01:00.0 enp1s0f0: NIC Link is Down
[ 1580.990639] i40e 0000:01:00.0 enp1s0f0: NIC Link is Up, 10 Gbps Full Duplex, Flow Control: None
[ 1582.569704] i40e 0000:01:00.0: VSI seid 388 Tx ring 8 disable timeout
[ 1623.756424] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 2, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[ 1623.756429] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 2
[ 1623.756810] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 2529.987804] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 4, NTC: 0x0, HWB: 0x0, NTU: 0x3, TAIL: 0x3, INT: 0x1
[ 2529.987812] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 4
[ 2529.988266] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 3602.872796] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 6, NTC: 0x0, HWB: 0x0, NTU: 0x2, TAIL: 0x2, INT: 0x1
[ 3602.872819] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 6
[ 3602.873267] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 5724.834824] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 4, NTC: 0x0, HWB: 0x0, NTU: 0x3, TAIL: 0x3, INT: 0x1
[ 5724.834848] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 4
[ 5724.835290] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 7212.972148] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 7, NTC: 0x0, HWB: 0x0, NTU: 0x2, TAIL: 0x2, INT: 0x1
[ 7212.972173] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 7
[ 7212.972629] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 7233.963960] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 6, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[ 7233.963985] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 6
[ 7233.964418] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 7260.843614] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 6, NTC: 0x0, HWB: 0x0, NTU: 0x4, TAIL: 0x4, INT: 0x1
[ 7260.843619] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 6
[ 7260.844002] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 7303.851242] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 6, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[ 7303.851265] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 6
[ 7303.851674] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 7911.844944] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 3, NTC: 0x0, HWB: 0x0, NTU: 0x4, TAIL: 0x4, INT: 0x1
[ 7911.844967] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 3
[ 7911.845409] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 7927.716717] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 3, NTC: 0x0, HWB: 0x0, NTU: 0x3, TAIL: 0x3, INT: 0x1
[ 7927.716724] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 2, hung_queue 3
[ 7927.766860] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 8007.843960] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 12, NTC: 0x0, HWB: 0x0, NTU: 0x1eb, TAIL: 0x1eb, INT: 0x1
[ 8007.843984] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 12
[ 8007.844845] i40e 0000:01:00.0: VSI seid 388 Tx ring 8 disable timeout

Sur une machine acheté il y a quelques mois, mais avec une configuration identique au CPU prés, je n'ai pas l'erreur :
$ dmesg | grep i40e
[    1.717393] i40e: Intel(R) Ethernet Connection XL710 Network Driver - version 2.1.14-k
[    1.737179] i40e: Copyright (c) 2013 - 2014 Intel Corporation.
[    1.759035] i40e 0000:01:00.0: fw 6.80.48603 api 1.7 nvm 6.00 0x800034e9 18.3.6
[    2.047101] i40e 0000:01:00.0: MAC address: f8:f2:1e:21:e4:e0
[    2.106832] i40e 0000:01:00.0: PCI-Express: Speed 8.0GT/s Width x8
[    2.107881] i40e 0000:01:00.0: Features: PF-id[0] VFs: 64 VSIs: 66 QP: 8 RSS FD_ATR FD_SB NTUPLE DCB VxLAN Geneve PTP VEPA
[    2.119865] i40e 0000:01:00.1: fw 6.80.48603 api 1.7 nvm 6.00 0x800034e9 18.3.6
[    2.363371] i40e 0000:01:00.1: MAC address: f8:f2:1e:21:e4:e2
[    2.373798] i40e 0000:01:00.1 eth1: NIC Link is Up, 10 Gbps Full Duplex, Flow Control: RX/TX
[    2.391800] i40e 0000:01:00.1: PCI-Express: Speed 8.0GT/s Width x8
[    2.406104] i40e 0000:01:00.1: Features: PF-id[1] VFs: 64 VSIs: 66 QP: 8 RSS FD_ATR FD_SB NTUPLE DCB VxLAN Geneve PTP VEPA
[    2.407094] i40e 0000:01:00.0 enp1s0f0: renamed from eth0
[    2.428159] i40e 0000:01:00.1 enp1s0f1: renamed from eth1

Je suis intrigué par la ligne qui indique que le port est UP: sur la machine qui pose problème, j'ai "Flow Control: None"

Sur celui qui est ok, j'ai "Flow Control: RX/TX"

D'où vient cette différence ?
Titre: Perte du réseau 10Gb/s (driver i40e) depuis le passage au Kernel 4.15
Posté par: hwti le 24 juillet 2018 à 14:34:52
Dans le premier post, il y a un "Flow Control: RX/TX" aussi.
Ca vient directement de la carte qui remonte l'état du lien, probablement en fonction du support ou non des trames PAUSE par le switch en face (ethtool peut donner des informations supplèmentaires).
Mais peut-être que le firmware le désactive quand il détecte des problèmes.

Le kernel 4.15 n'est pas une branch longterm upstream, donc il n'y aura pas de correction si Ubuntu ne travaille pas sur le problème.
Titre: Perte du réseau 10Gb/s (driver i40e) depuis le passage au Kernel 4.15
Posté par: vivien le 21 août 2018 à 09:41:25
J'ai peut-être trouvé la solution, ce pourrait être le mode x2apic...

Une machine non affecté par le problème, alors qu'elle a la carte même carte réseau Intel et le même kernel 4.15 :

$ dmesg | grep -i -e "x2apic"
[    0.000000] x2apic: enabled by BIOS, switching to x2apic ops
[    0.000000] Setting APIC routing to cluster x2apic.
[    0.004000] DMAR-IR: Queued invalidation will be enabled to support x2apic and Intr-remapping.
[    0.004000] DMAR-IR: Enabled IRQ remapping in x2apic mode

$ dmesg | grep -i -e "IRQ" -e "x2apic"
[    0.000000] x2apic: enabled by BIOS, switching to x2apic ops
[    0.000000] Setting APIC routing to cluster x2apic.
[    0.000000] ACPI: INT_SRC_OVR (bus 0 bus_irq 0 global_irq 2 dfl dfl)
[    0.000000] ACPI: INT_SRC_OVR (bus 0 bus_irq 9 global_irq 9 high level)
[    0.000000] ACPI: IRQ0 used by override.
[    0.000000] ACPI: IRQ9 used by override.
[    0.000000] NR_IRQS: 524544, nr_irqs: 488, preallocated irqs: 16
[    0.004000] DMAR-IR: Queued invalidation will be enabled to support x2apic and Intr-remapping.
[    0.004000] DMAR-IR: Enabled IRQ remapping in x2apic mode
[    0.142271] ACPI: PCI Interrupt Link [LNKA] (IRQs 3 4 5 6 10 *11 12 14 15)
[    0.142324] ACPI: PCI Interrupt Link [LNKB] (IRQs 3 4 5 *6 10 11 12 14 15)
[    0.142374] ACPI: PCI Interrupt Link [LNKC] (IRQs 3 4 *5 6 10 11 12 14 15)
[    0.142425] ACPI: PCI Interrupt Link [LNKD] (IRQs 3 4 5 6 10 *11 12 14 15)
[    0.142475] ACPI: PCI Interrupt Link [LNKE] (IRQs 3 4 5 6 10 *11 12 14 15)
[    0.142524] ACPI: PCI Interrupt Link [LNKF] (IRQs 3 4 5 *6 10 11 12 14 15)
[    0.142573] ACPI: PCI Interrupt Link [LNKG] (IRQs 3 4 *5 6 10 11 12 14 15)
[    0.142622] ACPI: PCI Interrupt Link [LNKH] (IRQs 3 4 5 6 10 *11 12 14 15)
[    0.156019] PCI: Using ACPI for IRQ routing
[    0.188269] hpet0: at MMIO 0xfed00000, IRQs 2, 8, 0, 0, 0, 0, 0, 0
[    0.705010] pcieport 0000:00:01.0: Signaling PME with IRQ 25
[    0.705020] pcieport 0000:00:01.1: Signaling PME with IRQ 26
[    0.705030] pcieport 0000:00:01.2: Signaling PME with IRQ 27
[    0.705040] pcieport 0000:00:1d.0: Signaling PME with IRQ 28
[    0.705050] pcieport 0000:00:1d.2: Signaling PME with IRQ 29
[    0.745109] Serial: 8250/16550 driver, 32 ports, IRQ sharing enabled
[    0.766034] 00:05: ttyS1 at I/O 0x2f8 (irq = 3, base_baud = 115200) is a 16550A
[    0.787090] 00:06: ttyS0 at I/O 0x3f8 (irq = 4, base_baud = 115200) is a 16550A
[    0.982127] rtc_cmos 00:03: alarms up to one month, y3k, 242 bytes nvram, hpet irqs
[    1.998397] ata1: SATA max UDMA/133 abar m2048@0x95d16000 port 0x95d16100 irq 31
[    1.998445] ata2: SATA max UDMA/133 abar m2048@0x95d16000 port 0x95d16180 irq 31
[    1.998510] ata3: SATA max UDMA/133 abar m2048@0x95d16000 port 0x95d16200 irq 31
[    1.998518] ata4: SATA max UDMA/133 abar m2048@0x95d16000 port 0x95d16280 irq 31
[    1.998579] ata5: SATA max UDMA/133 abar m2048@0x95d16000 port 0x95d16300 irq 31
[    1.998652] ata6: SATA max UDMA/133 abar m2048@0x95d16000 port 0x95d16380 irq 31
[    2.135900] tg3 0000:04:00.0 eth0: RXcsums[1] LinkChgREG[0] MIirq[0] ASF[1] TSOcap[1]
[    2.165007] tg3 0000:04:00.1 eth1: RXcsums[1] LinkChgREG[0] MIirq[0] ASF[1] TSOcap[1]
[    4.570361] ipmi_si: SMBIOS: io 0xca8 regsize 1 spacing 4 irq 10
[    4.570400] ipmi_si: Trying SMBIOS-specified kcs state machine at i/o address 0xca8, slave address 0x20, irq 10
[    4.980085] ipmi_si dmi-ipmi-si.0: The BMC does not support setting the recv irq bit, compensating, but the BMC needs to be fixed.
[    5.052227] ipmi_si dmi-ipmi-si.0: Using irq 10


Une machine affété par le problème avec le kernel 4.15 :
$ dmesg | grep -i -e "x2apic"
[    0.004000] DMAR-IR: x2apic is disabled because BIOS sets x2apic opt out bit.
[    0.004000] DMAR-IR: Use 'intremap=no_x2apic_optout' to override the BIOS setting.
[    0.004000] x2apic: IRQ remapping doesn't support X2APIC mode

$ dmesg | grep -i -e "IRQ" -e "x2apic"
[    0.000000] ACPI: INT_SRC_OVR (bus 0 bus_irq 0 global_irq 2 dfl dfl)
[    0.000000] ACPI: INT_SRC_OVR (bus 0 bus_irq 9 global_irq 9 high level)
[    0.000000] ACPI: IRQ0 used by override.
[    0.000000] ACPI: IRQ9 used by override.
[    0.000000] NR_IRQS: 524544, nr_irqs: 488, preallocated irqs: 16
[    0.004000] DMAR-IR: x2apic is disabled because BIOS sets x2apic opt out bit.
[    0.004000] DMAR-IR: Use 'intremap=no_x2apic_optout' to override the BIOS setting.
[    0.004000] DMAR-IR: Enabled IRQ remapping in xapic mode
[    0.004000] x2apic: IRQ remapping doesn't support X2APIC mode
[    0.138307] ACPI: PCI Interrupt Link [LNKA] (IRQs 3 4 5 6 10 *11 12 14 15)
[    0.138362] ACPI: PCI Interrupt Link [LNKB] (IRQs 3 4 5 *6 10 11 12 14 15)
[    0.138415] ACPI: PCI Interrupt Link [LNKC] (IRQs 3 4 *5 6 10 11 12 14 15)
[    0.138469] ACPI: PCI Interrupt Link [LNKD] (IRQs 3 4 5 6 10 *11 12 14 15)
[    0.138522] ACPI: PCI Interrupt Link [LNKE] (IRQs 3 4 5 6 10 *11 12 14 15)
[    0.138574] ACPI: PCI Interrupt Link [LNKF] (IRQs 3 4 5 *6 10 11 12 14 15)
[    0.138626] ACPI: PCI Interrupt Link [LNKG] (IRQs 3 4 *5 6 10 11 12 14 15)
[    0.138678] ACPI: PCI Interrupt Link [LNKH] (IRQs 3 4 5 6 10 *11 12 14 15)
[    0.149875] PCI: Using ACPI for IRQ routing
[    0.179602] hpet0: at MMIO 0xfed00000, IRQs 2, 8, 0, 0, 0, 0, 0, 0
[    0.739186] pcieport 0000:00:01.0: Signaling PME with IRQ 25
[    0.739197] pcieport 0000:00:01.1: Signaling PME with IRQ 26
[    0.739208] pcieport 0000:00:01.2: Signaling PME with IRQ 27
[    0.739220] pcieport 0000:00:1d.0: Signaling PME with IRQ 28
[    0.739230] pcieport 0000:00:1d.2: Signaling PME with IRQ 29
[    0.779471] Serial: 8250/16550 driver, 32 ports, IRQ sharing enabled
[    0.800446] 00:05: ttyS1 at I/O 0x2f8 (irq = 3, base_baud = 115200) is a 16550A
[    0.821498] 00:06: ttyS0 at I/O 0x3f8 (irq = 4, base_baud = 115200) is a 16550A
[    1.017074] rtc_cmos 00:03: alarms up to one month, y3k, 242 bytes nvram, hpet irqs
[    2.151294] tg3 0000:04:00.0 eth0: RXcsums[1] LinkChgREG[0] MIirq[0] ASF[1] TSOcap[1]
[    2.175431] ata1: SATA max UDMA/133 abar m2048@0x95d16000 port 0x95d16100 irq 39
[    2.175436] ata2: SATA max UDMA/133 abar m2048@0x95d16000 port 0x95d16180 irq 39
[    2.175440] ata3: SATA max UDMA/133 abar m2048@0x95d16000 port 0x95d16200 irq 39
[    2.175443] ata4: SATA max UDMA/133 abar m2048@0x95d16000 port 0x95d16280 irq 39
[    2.175446] ata5: SATA max UDMA/133 abar m2048@0x95d16000 port 0x95d16300 irq 39
[    2.175449] ata6: SATA max UDMA/133 abar m2048@0x95d16000 port 0x95d16380 irq 39
[    2.201436] tg3 0000:04:00.1 eth1: RXcsums[1] LinkChgREG[0] MIirq[0] ASF[1] TSOcap[1]
[    4.547787] ipmi_si: SMBIOS: io 0xca8 regsize 1 spacing 4 irq 10
[    4.547831] ipmi_si: Trying SMBIOS-specified kcs state machine at i/o address 0xca8, slave address 0x20, irq 10
[    4.964082] ipmi_si dmi-ipmi-si.0: The BMC does not support setting the recv irq bit, compensating, but the BMC needs to be fixed.
[    5.032159] ipmi_si dmi-ipmi-si.0: Using irq 10
[   10.972124] Modules linked in: ip6table_mangle ip6_tables xt_DSCP xt_tcpudp iptable_mangle ip_tables x_tables ipmi_ssif nls_iso8859_1 intel_rapl x86_pkg_temp_thermal intel_powerclamp kvm_intel kvm irqbypass intel_cstate dcdbas intel_rapl_perf intel_wmi_thunderbolt intel_pch_thermal mei_me mei shpchp ie31200_edac ipmi_si acpi_power_meter mac_hid ib_iser rdma_cm iw_cm ib_cm ib_core iscsi_tcp libiscsi_tcp libiscsi scsi_transport_iscsi ipmi_watchdog ipmi_devintf ipmi_msghandler coretemp autofs4 btrfs zstd_compress raid10 raid456 async_raid6_recov async_memcpy async_pq async_xor async_tx xor raid6_pq libcrc32c raid1 raid0 multipath linear crct10dif_pclmul crc32_pclmul ghash_clmulni_intel mgag200 pcbc i2c_algo_bit ttm drm_kms_helper syscopyarea aesni_intel sysfillrect sysimgblt aes_x86_64 fb_sys_fops crypto_simd
[   10.972184]  <IRQ>
[   10.972190]  run_timer_softirq+0x1ed/0x440
[   10.972195]  __do_softirq+0xf5/0x28f
[   10.972197]  irq_exit+0xb8/0xc0
[   10.972200]  </IRQ>

Je ne sais pas pourquoi, Dell désactive le mode x2apic par défault dans ses bios.

Voici l'option à activer :
Titre: Perte du réseau 10Gb/s (driver i40e) depuis le passage au Kernel 4.15
Posté par: Harvester le 21 août 2018 à 13:05:10
Parce qu'ils savent que leur implèmentation est bugguée ?  ;D
Titre: Perte du réseau 10Gb/s (driver i40e) depuis le passage au Kernel 4.15
Posté par: vivien le 21 août 2018 à 13:40:27
En fait ce n'est pas la cause du problème.

Je continue le jeu des 7 différences.

J'ai 5 serveurs identiques équipés d'une carte Intel X710-DA2 et qui sont passés sur le Kernel 4.15 avec Ubuntu 16.04 LTS.
=> 3 fonctionnent parfaitement
=> 2 ont ces erreurs et refusent certaines connexion TCP

Au niveau soft tout me semble presque identique. Coté hardware, quand j'ai vu x2apic désactivé sur les deux serveurs problématiques et activé sur les deux autres, j'ai pensé avoir trouvé, mais ce n'est pas la cause.
Cela pourrait être l'équipement à l'autre bout sachant que ces 5 serveurs sont situés sur 5 sites différents.
Titre: Perte du réseau 10Gb/s (driver i40e) depuis le passage au Kernel 4.15
Posté par: Harvester le 21 août 2018 à 15:31:09
Et avec un kernel 4.16 ou 4.17, comme suggéré par hwti ?
Titre: Perte du réseau 10Gb/s (driver i40e) depuis le passage au Kernel 4.15
Posté par: vivien le 21 août 2018 à 19:18:33
Là je me suis plus focalisé sur trouver les différences entre les machines impactées et celles non impactées.
Maintenant que x2apic est activé partout, j'ai analysés dmesg ligne par ligne.

J'ai trouvé une différence :

Les machines sans problème ont une ligne :
[    2.522869] i40e 0000:02:00.0: Features: PF-id[0] VFs: 64 VSIs: 66 QP: 8 RSS FD_ATR FD_SB NTUPLE DCB VxLAN Geneve PTP VEPA

Celles qui ont des erreurs ont une ligne :
[    2.932705] i40e 0000:01:00.0: Features: PF-id[0] VFs: 64 VSIs: 66 QP: 16 RSS FD_ATR FD_SB NTUPLE DCB VxLAN Geneve PTP VEPA

Le QP qui passe de 8 à 16 semble être une clef...

Voici en plus les lignes supplèmentaires qui sont présentes dans un dmesg d'une machine affectée par des erreurs et qui sont absente d'une machine sans erreurs :
[   10.976007] ------------[ cut here ]------------
[   10.976009] NETDEV WATCHDOG: enp1s0f0 (i40e): transmit queue 4 timed out
[   10.976022] WARNING: CPU: 7 PID: 0 at /build/linux-hwe-jbofgD/linux-hwe-4.15.0/net/sched/sch_generic.c:323 dev_watchdog+0x222/0x230
[   10.976023] Modules linked in: ip6table_mangle ip6_tables xt_DSCP xt_tcpudp iptable_mangle ip_tables x_tables ipmi_ssif nls_iso8859_1 intel_rapl x86_pkg_temp_thermal intel_powerclamp kvm_intel kvm irqbypass intel_cstate dcdbas intel_rapl_perf input_leds joydev intel_wmi_thunderbolt mei_me mei intel_pch_thermal ipmi_si shpchp ie31200_edac acpi_power_meter mac_hid ib_iser rdma_cm iw_cm ib_cm ib_core iscsi_tcp libiscsi_tcp libiscsi scsi_transport_iscsi ipmi_watchdog ipmi_devintf ipmi_msghandler coretemp autofs4 btrfs zstd_compress raid10 raid456 async_raid6_recov async_memcpy async_pq async_xor async_tx xor raid6_pq libcrc32c raid1 raid0 multipath linear crct10dif_pclmul mgag200 crc32_pclmul ghash_clmulni_intel pcbc i2c_algo_bit ttm drm_kms_helper hid_generic aesni_intel syscopyarea sysfillrect usbhid
[   10.976065]  aes_x86_64 sysimgblt crypto_simd hid glue_helper fb_sys_fops i40e tg3 ahci cryptd drm libahci ptp megaraid_sas pps_core wmi video
[   10.976073] CPU: 7 PID: 0 Comm: swapper/7 Not tainted 4.15.0-32-generic #35~16.04.1-Ubuntu
[   10.976074] Hardware name: Dell Inc. PowerEdge R330/0H5N7P, BIOS 2.5.0 05/03/2018
[   10.976075] RIP: 0010:dev_watchdog+0x222/0x230
[   10.976076] RSP: 0018:ffff9f2e2fdc3e68 EFLAGS: 00010282
[   10.976077] RAX: 0000000000000000 RBX: 0000000000000004 RCX: 0000000000000006
[   10.976078] RDX: 0000000000000007 RSI: 0000000000000082 RDI: ffff9f2e2fdd6490
[   10.976078] RBP: ffff9f2e2fdc3e98 R08: 0000000000000001 R09: 0000000000000385
[   10.976079] R10: 0000000000000000 R11: 0000000000000385 R12: 0000000000000040
[   10.976079] R13: ffff9f2e0b174000 R14: ffff9f2e0b174478 R15: ffff9f2dfe774f40
[   10.976080] FS:  0000000000000000(0000) GS:ffff9f2e2fdc0000(0000) knlGS:0000000000000000
[   10.976081] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[   10.976081] CR2: 00007f5912290000 CR3: 00000004a8c0a002 CR4: 00000000003606e0
[   10.976082] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
[   10.976083] DR3: 0000000000000000 DR6: 00000000fffe0ff0 DR7: 0000000000000400
[   10.976083] Call Trace:
[   10.976084]  <IRQ>
[   10.976086]  ? dev_deactivate_queue.constprop.33+0x60/0x60
[   10.976088]  call_timer_fn+0x32/0x140
[   10.976089]  run_timer_softirq+0x1ed/0x440
[   10.976090]  ? ktime_get+0x3e/0xa0
[   10.976092]  ? lapic_next_deadline+0x26/0x30
[   10.976094]  __do_softirq+0xf5/0x28f
[   10.976096]  irq_exit+0xb8/0xc0
[   10.976097]  smp_apic_timer_interrupt+0x79/0x140
[   10.976098]  apic_timer_interrupt+0x84/0x90
[   10.976099]  </IRQ>
[   10.976101] RIP: 0010:cpuidle_enter_state+0xa7/0x300
[   10.976101] RSP: 0018:ffffb95e031f7e60 EFLAGS: 00000246 ORIG_RAX: ffffffffffffff11
[   10.976102] RAX: ffff9f2e2fde2880 RBX: 0000000000000001 RCX: 000000000000001f
[   10.976103] RDX: 0000000000000000 RSI: 0000000024879922 RDI: 0000000000000000
[   10.976103] RBP: ffffb95e031f7e98 R08: ffff9f2e2fde16a4 R09: 0000000000000008
[   10.976104] R10: ffffb95e031f7e30 R11: 0000000000000050 R12: 0000000000000001
[   10.976104] R13: ffff9f2e2fdecb00 R14: ffffffffbd171cd8 R15: 000000028e384552
[   10.976106]  cpuidle_enter+0x17/0x20
[   10.976108]  call_cpuidle+0x23/0x40
[   10.976109]  do_idle+0x197/0x200
[   10.976111]  cpu_startup_entry+0x73/0x80
[   10.976112]  start_secondary+0x1ab/0x200
[   10.976113]  secondary_startup_64+0xa5/0xb0
[   10.976114] Code: 37 00 49 63 4e e8 eb 92 4c 89 ef c6 05 a6 c3 d8 00 01 e8 42 37 fd ff 89 d9 48 89 c2 4c 89 ee 48 c7 c7 38 a1 d9 bc e8 be 97 80 ff <0f> 0b eb c0 66 2e 0f 1f 84 00 00 00 00 00 0f 1f 44 00 00 55 48
[   10.976133] ---[ end trace 1bc547bc3aba1f6c ]---
[   10.976138] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 4, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[   10.976139] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 4
[   10.976446] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[   16.864012] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 1, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[   16.864034] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 2, hung_queue 1
[   16.918729] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[   26.713172] TCP: request_sock_TCP: Possible SYN flooding on port 80. Sending cookies.  Check SNMP counters.
[   35.808083] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 8, NTC: 0x0, HWB: 0x0, NTU: 0x1eb, TAIL: 0x1eb, INT: 0x1
[   35.808105] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 3, hung_queue 8
[   35.858470] i40e 0000:01:00.0: VSI seid 388 Tx ring 8 disable timeout
[   39.015341] i40e 0000:01:00.0 enp1s0f0: NIC Link is Down
[   44.257220] i40e 0000:01:00.0 enp1s0f0: NIC Link is Up, 10 Gbps Full Duplex, Flow Control: None
[   45.746306] i40e 0000:01:00.0: VSI seid 388 Tx ring 8 disable timeout
[   73.600368] usb 1-3.1: USB disconnect, device number 3
[  114.912060] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 5, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[  114.912065] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 5
[  114.912506] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[  333.024050] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 5, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[  333.024077] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 5
[  333.024503] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[  791.776071] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 5, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[  791.776095] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 5
[  791.776523] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[  802.016059] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 5, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[  802.016074] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 2, hung_queue 5
[  802.066087] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[  830.944085] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 9, NTC: 0x0, HWB: 0x0, NTU: 0x1ec, TAIL: 0x1ec, INT: 0x1
[  830.944107] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 9
[  830.945038] i40e 0000:01:00.0: VSI seid 388 Tx ring 8 disable timeout
[ 1954.015182] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 2, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[ 1954.015190] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 2
[ 1954.015599] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
Titre: Perte du réseau 10Gb/s (driver i40e) depuis le passage au Kernel 4.15
Posté par: hwti le 21 août 2018 à 21:24:09
QP, c'est "num_queue_pairs", dont le calcul semble compliqué, et peut faire intervenir le nombre de vecteurs MSI-X (interruption) reservés, qui lui-même peut dériver du nombre de cœurs de la machine.
Le tout est lié au Receive Side Scaling : pouvoir répartir le trafic reçu sur les différents cœurs.
Titre: Perte du réseau 10Gb/s (driver i40e) depuis le passage au Kernel 4.15
Posté par: vivien le 22 août 2018 à 09:35:51
J'ai migré 10 serveurs Dell R310 équipés d'une carte carte Intel X710-DA2 en 4.15 et je pense avoir trouvé un autre point commun.


Avec l'ancien driver du kernel 4.13 j'ai systématiquement
[    2.912337] i40e 0000:01:00.0 eth0: NIC Link is Up, 10 Gbps Full Duplex, Flow Control: None

Avec le nouveau driver du kernel 4.15 j'ai :

Flow Control: RX/TX => machines qui fonctionnent parfaitement (6 serveurs sur les 10)

Flow Control: None => machines ont des erreurs (4 serveurs sur les 10)

Je suis maintenant persuadé que c'est un pb de configuration coté Cisco Nexus (l'équipement réseau de l'autre coté), vu que toutes les machines problématiques sont sur deux sites.

L’ancien driver i40e ne devait pas supporter le Flow Control et le nouveau bug si il n'est pas bien implèmenté.
Titre: Perte du réseau 10Gb/s (driver i40e) depuis le passage au Kernel 4.15
Posté par: hwti le 22 août 2018 à 10:10:31
Ce serait étrange que le Flow Control ne soit pas supporté par l'ancien driver.

Le bug est peut-être indirect, puisque ça affecte la vitesse des envois (si le PC dialogue avec une machine en gigabit derrière le switch par exemple).
Le cas sans Flow Control est le plus simple pour la carte : elle envoie les données à la vitesse maximum, quitte à ce que des trames Ethernet soient perdues plus loin sur le réseau. Mais du coup il est possible que les tx queues se vident plus vite dans ce mode, et donc que ça stresse un peu plus le driver.
Titre: Perte du réseau 10Gb/s (driver i40e) depuis le passage au Kernel 4.15
Posté par: vivien le 22 août 2018 à 10:30:39
J'ai oublié de préciser que au début je parlait d'une perte de réseau  : c'était le cas mais que après upgrade du firmware de la carte réseau, cela fonctionne, il y a seulement des serrures régulièrement. Le même problème s'est reproduit pour les 3 autres machines qui sont en "Flow Control: None" : pas de réseau tant que le firmware de la carte n'est pas upgradé.

Je n'ai pas eu besoin d'upgrader les firmwares des cartes réseaux pour les 6 serveurs qui fonctionnent avec Flow Control: RX/TX.
Titre: Perte du réseau 10Gb/s (driver i40e) depuis le passage au Kernel 4.15
Posté par: vivien le 24 août 2018 à 09:33:58
J'ai testé pour un serveur non impacté l'upgarde dans le dernier firmwzare (18.5.17 depuis la version précédente, la 18.3.6)
=> Le nouveaux firmware désactive le "Flow Control: RX/TX" et je me retrouve en "Flow Control: None" mais sans erreurs.

(https://lafibre.info/testdebit/ubuntu/201808_maj_firmware_carte_intel_i40e.png)

Les serveur impacté ayant tous été upgradés sans quoi il n'y avait pas de réseau, le "Flow Control: None" est la conséquence de l'upgrade et non l'origine du problème.

La seule différence reste donc le QP qui est à 8 pour un serveur sans problème et à 16 pour un serveur avec problème.

Je reste impressionné par le nombre de bugs qui peuvent être présents (et résolus) sur une simple carte réseau Intel X710...

Firmware 18.5.17,A00 11 juin 2018


Fixes
- Fixed link stability issue when 1G/10G dual speed optic module is used with Intel (R) X710 devices
- Fixed issue that incorrectly disabled and identified Dell SFP+ LR optic devices as unsupported devices with Intel(R) 10GbE 2P X710 Adapter
- Fixed PCIe training issue that may occasionally cause system halt during POST for some Intel(R) X710/XL710 devices
- Fixed issue that may cause system to delay for few minutes when entering Dell Lifecycle Controller when NPAR is enabled on some platforms for Intel(R) X710 devices
- Fixed issue that may show incorrect MAC address in Dell Lifecycle Controller when the MAC address is updated by iDRAC for Intel(R) X710 devices
- Fixed LLDP issue on Intel(R) X710 devices that caused Dell iDRAC Connection view to not work properly
- Fixed issue with the Intel(R) 25GbE XXV710 not properly identifying cable media which caused link to be established at 10GbE instead of 25GbE
- Fixed issue that may incorrectly show 'Wake on LAN' feature supported for some Intel(R) X710 devices
- The value of 'PCI VF Advertised' is now correctly applied from HII by enforcing a reset after update
- The UEFI driver now correctly resets all iSCSI related settings when the device is reset to the factory default
- The firmware update process now preserves configuration parameters related to 25G AOC cables and capabilities to prevent link loss due to resetting of configuration parameters during firmware update
- Fixed issue that mistakenly caused messages to appear in Lifecycle Log saying "Unable to configure the virtual address..."

Enhancements
- The firmware update process is optimized to stop update process immediately after error or failure
- Added support for Intel(R) Ethernet 25G 2P XXV710 Mezz


Firmware 18.3.6,A00 14 déc. 2017

Correctifs
- Résolution d’un problème entraînant l’échec d’installation du pilote sur des fonctions virtuelles Intel® X710 dans des systèmes d’exploitation invité installés sur des machines virtuelles ESXi. Pour appliquer le correctif, effectuez les opérations suivantes :
1. Mettez à jour du micrologiciel via le système d’exploitation (pas via Lifecycle Controller ou iDRAC)
2. Dans le BIOS, changez le mode de la virtualisation de « NPar + SR-IOV » en « None »
3. Redémarrez le système
4. Dans le BIOS, changez le mode de la virtualisation de « None » en « NPar + SR-IOV »
- Résolution d’un problème lié à la fonctionnalité de restauration dans iDRAC9 où Lifecycle Controller ne fonctionne pas pour les appareils Intel pris en charge par ce package.
- Résolution d’un problème de démarrage PXE sur la carte Intel® Ethernet X710-T lorsque le VLAN est activé.
- Résolution du problème lié à la carte Intel® X710 entraînant l’échec de connexion à une vitesse de 1 Gb avec des èmetteurs-récepteurs optiques 1 GbE.
- Résolution du problème avec les partitions sur les cartes X710 qui s’affichent dans iDRAC même lorsqu’elles sont désactivées.
- Résolution d’un problème avec les appareils équipés de cartes Intel® X710 entraînant l’affichage d’une valeur incorrecte de 0 pour « PCI Virtual Functions Advertised » après la réinitialisation de la valeur par défaut.
- Résolution du problème avec de longs temps de démarrage en mode de démarrage UEFI avec le serveur PXE avec les cartes Intel® X710.
- Résolution d’un problème avec les appareils X710/XL710 qui rencontraient une perte de communication lors de la désactivation du contrôle du flux et lorsque le système était redémarré à chaud pour les systèmes expéditeurs et destinataires.

Améliorations
- Mise à jour de messages d’avertissement et d’erreur pour les dispositifs optiques ne répondant pas aux exigences thermiques.
- Prise en charge de l’adaptateur Intel® Ethernet 25G 2P XXV710, qui est un adaptateur 25G à deux ports SFP28 profil bas/pleine hauteur.
- Ajout de la prise en charge pour Red Hat Enterprise Linux 7.4
- Ajout de la prise en charge pour Red Hat Enterprise Linux 6.9
- Ajout de la prise en charge de SUSE Linux Enterprise Server 12 SP3


Firmware 18.0.17,A00 30 août 2017

Correctifs
- Résolution du problème suivant : la carte fille réseau Intel® X710-k bNDC renvoie un échec lors du test de diagnostic ePSA avec le code d’erreur 2000-0620 lorsqu’elle est connectée à la vitesse de liaison 1G
- Rectification de l’avertissement sur l’intégrité du pilote UEFI qui s’affiche lors de l’insertion d’un module SFP+ ou QSFP non pris en charge
- Modification du pilote UEFI pour que la fonction NParEP ne puisse pas être activée lorsque NPar n’est pas activé
- Résolution du problème suivant : cartes 40 Gigabit identifiées comme des cartes 10 Gigabit
- Réduction de l’espace de stockage utilisé par le micrologiciel pour la restauration de Lifecycle Controller
- Résolution d’un problème entraînant l’échec de la mise à jour du micrologiciel vers la version 18.0.16 sur les configurations comprenant plusieurs adaptateurs Intel®

Améliorations
- Ajout de la prise en charge de la carte réseau convergé Ethernet Intel® X710-T
- Ajout de la prise en charge de l’adaptateur serveur Ethernet Intel(R) X710-DA2 pour OCP
- Blocage de la configuration d’adresse MAC virtuelle non valide
- Blocage des valeurs de sous-réseau de l’initiateur iSCSI non valides
- Prise en charge des modules optiques. Reportez-vous à la section « SFP+ and QSFP+ Devices » (Appareils SFP+ et QSFP+) du Guide d’utilisation pour en savoir plus
- Amélioration de la description indiquant les modes d’alimentation applicables au paramètre Wake on LAN
- Création de la possibilité de restaurer les valeurs par défaut pour les paramètres avec la touche F2 : paramètres de l’appareil


Firmware 17.5.12,A00 21 déc. 2016

Fixes
- Firmware Update can now update eight Intel X710 Network Adapters with NparEP enabled on all the cards from Firmware version 17.0.12
- Intel X710 might have shown a mismatch in packet drops when stress testing it
- Security vulnerability exclusive to Intel X710 and XL710 Firmware version 17.5.10
- Security vulnerability exclusive to Intel X710 and XL710 Firmware version 17.5.11

Enhancements
- PXE enabled on function 0 by default on X710 rNDC and bNDC devices
- Added support for Intel(R) Ethernet Converged Network Adapter XL710-Q2
- Added support for Intel(R) Ethernet 40G 2P XL710 QSFP+ rNDC
- Added support for Red Hat Enterprise Linux 7.2 x86_64
- Added support for Novell SUSE Linux Enterprise Server 12 SP1


Firmware 17.5.11,A00 15 juin 2016

Correctifs
- La mise à jour du micrologiciel peut désormais s’appliquer à huit cartes réseau Intel X710 avec la fonction NparEP activée sur toutes les cartes, à partir du micrologiciel version 17.0.12
- La carte Intel X710 a pu montrer une disparité au niveau des abandons de paquets au cours des tests de résistance
- Vulnérabilités exclusives aux micrologiciels Intel X710 et XL710 version 17.5.10

Améliorations
- Environnement PXE activé par défaut sur la fonction 0 sur la carte fille réseau rack et la carte fille réseau lame X710
- Ajout de la prise en charge de la carte réseau convergé Ethernet Intel® XL710-Q2
- Ajout de la prise en charge de la carte fille réseau rack Ethernet 40G à 2 ports QSFP+ Intel® XL710
- Ajout de la prise en charge de Red Hat Enterprise Linux 7.2 x86_64
- Ajout de la prise en charge de Novell SUSE Linux Enterprise Server 12 SP1


Firmware 17.0.12,A00 08 déc. 2015

Fixes
- Partition Min/Max bandwidth value change made in BIOS is intermittently not retained after reboot
- Minimum bandwidth is not distributed equally between the physical functions when enabling NPAR/NPAR EP
- Server Profile Import fails due to incorrect read/write setting of "iScsiOffloadMode" attribute if NPar mode and NParEP is disabled
- "iSCSI Offload Mode" setting displayed in BIOS on X710 devices that do not support iSCSI offload
- "VFDistribution" attribute in the BIOS should not be writeable when VirtualizationMode is set to NPAR
- X710 devices do not display all partition information correctly in Hardware inventory in iDRAC
- X710 device fails to connect and download files from PXE server via IPv6 in UEFI PXE mode

Enhancements
- Added FW DUP support for Windows 10 x64
- Default value for Virtual FIP MAC address changed to "00:00:00:00:00:00"