Nouvelle tentative avec le kernel 4.15.0-29-generic + mise à jour du BIOS du serveur Dell PowerEdge R330 (de la version 2.0.8 à la version 2.5.0) et mise à jour du Firmware de la carte Intel Ethernet Converged Network Adapter X710-DA2 (de la version 17.5.12 à la version 18.5.17)
Cela fonctionne un peu, mais j'ai encore régulièrement des erreurs :
$ dmesg | grep i40e
[ 1.754001] i40e: Intel(R) Ethernet Connection XL710 Network Driver - version 2.1.14-k
[ 1.773765] i40e: Copyright (c) 2013 - 2014 Intel Corporation.
[ 1.813550] i40e 0000:01:00.0: fw 6.80.48812 api 1.7 nvm 6.00 0x80003751 18.5.17
[ 2.093649] i40e 0000:01:00.0: MAC address: 3c:fd:fe:1d:76:60
[ 2.147837] i40e 0000:01:00.0 eth0: NIC Link is Up, 10 Gbps Full Duplex, Flow Control: None
[ 2.159581] i40e 0000:01:00.0: PCI-Express: Speed 8.0GT/s Width x8
[ 2.169064] i40e 0000:01:00.0: Features: PF-id[0] VFs: 64 VSIs: 66 QP: 16 RSS FD_ATR FD_SB NTUPLE DCB VxLAN Geneve PTP VEPA
[ 2.181300] i40e 0000:01:00.1: fw 6.80.48812 api 1.7 nvm 6.00 0x80003751 18.5.17
[ 2.425649] i40e 0000:01:00.1: MAC address: 3c:fd:fe:1d:76:62
[ 2.430388] i40e 0000:01:00.1: PCI-Express: Speed 8.0GT/s Width x8
[ 2.431153] i40e 0000:01:00.1: Features: PF-id[1] VFs: 64 VSIs: 66 QP: 8 RSS FD_ATR FD_SB NTUPLE DCB VxLAN Geneve PTP VEPA
[ 2.432199] i40e 0000:01:00.0 enp1s0f0: renamed from eth0
[ 2.472204] i40e 0000:01:00.1 enp1s0f1: renamed from eth1
[ 9.948085] NETDEV WATCHDOG: enp1s0f0 (i40e): transmit queue 1 timed out
[ 9.948120] crc32_pclmul ghash_clmulni_intel pcbc mgag200 i2c_algo_bit ttm drm_kms_helper aesni_intel syscopyarea i40e aes_x86_64 sysfillrect crypto_simd sysimgblt tg3 glue_helper fb_sys_fops ahci cryptd drm libahci ptp megaraid_sas pps_core wmi video
[ 9.948205] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 1, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[ 9.948206] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 1
[ 9.948537] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 15.836086] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 3, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[ 15.836092] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 2, hung_queue 3
[ 15.886149] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 155.868081] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 13, NTC: 0x0, HWB: 0x0, NTU: 0x1ec, TAIL: 0x1ec, INT: 0x1
[ 155.868104] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 13
[ 155.869033] i40e 0000:01:00.0: VSI seid 388 Tx ring 8 disable timeout
[ 165.852082] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 7, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[ 165.852106] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 2, hung_queue 7
[ 165.902223] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 295.899292] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 15, NTC: 0x0, HWB: 0x0, NTU: 0x1eb, TAIL: 0x1eb, INT: 0x1
[ 295.899316] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 15
[ 295.900183] i40e 0000:01:00.0: VSI seid 388 Tx ring 8 disable timeout
[ 338.907284] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 0, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[ 338.907307] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 0
[ 338.907729] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 349.915269] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 7, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[ 349.915292] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 2, hung_queue 7
[ 349.965382] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 466.902254] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 8, NTC: 0x0, HWB: 0x0, NTU: 0x1eb, TAIL: 0x1eb, INT: 0x1
[ 466.902275] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 8
[ 466.903135] i40e 0000:01:00.0: VSI seid 388 Tx ring 8 disable timeout
[ 498.901630] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 0, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[ 498.901636] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 0
[ 498.902016] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 530.901171] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 0, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[ 530.901176] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 0
[ 530.901561] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 594.900266] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 0, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[ 594.900289] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 0
[ 594.900707] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 605.908110] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 6, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[ 605.908132] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 2, hung_queue 6
[ 605.908589] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 738.002231] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 13, NTC: 0x0, HWB: 0x0, NTU: 0x1eb, TAIL: 0x1eb, INT: 0x1
[ 738.002259] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 13
[ 738.003122] i40e 0000:01:00.0: VSI seid 388 Tx ring 8 disable timeout
[ 770.001773] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 7, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[ 770.001797] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 7
[ 770.002211] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 781.009615] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 4, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[ 781.009638] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 2, hung_queue 4
[ 781.059690] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 892.882005] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 12, NTC: 0x0, HWB: 0x0, NTU: 0x15d, TAIL: 0x15d, INT: 0x1
[ 892.882035] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 12
[ 892.882942] i40e 0000:01:00.0: VSI seid 388 Tx ring 8 disable timeout
[ 1308.878559] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 4, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[ 1308.878569] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 4
[ 1308.878987] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 1345.998183] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 4, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[ 1345.998189] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 4
[ 1345.998579] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 1362.894027] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 4, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[ 1362.894031] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 2, hung_queue 4
[ 1362.944156] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 1463.757373] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 13, NTC: 0x0, HWB: 0x0, NTU: 0x1ec, TAIL: 0x1ec, INT: 0x1
[ 1463.757397] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 13
[ 1463.758291] i40e 0000:01:00.0: VSI seid 388 Tx ring 8 disable timeout
[ 1490.893275] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 4, NTC: 0x0, HWB: 0x0, NTU: 0x4, TAIL: 0x4, INT: 0x1
[ 1490.893286] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 4
[ 1490.893642] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 1549.004924] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 4, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[ 1549.004947] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 4
[ 1549.005371] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 1559.756871] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 4, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[ 1559.756894] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 2, hung_queue 4
[ 1559.807022] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 1572.812775] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 9, NTC: 0x0, HWB: 0x0, NTU: 0x16, TAIL: 0x16, INT: 0x1
[ 1572.812798] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 3, hung_queue 9
[ 1572.863340] i40e 0000:01:00.0: VSI seid 388 Tx ring 8 disable timeout
[ 1575.990199] i40e 0000:01:00.0 enp1s0f0: NIC Link is Down
[ 1580.990639] i40e 0000:01:00.0 enp1s0f0: NIC Link is Up, 10 Gbps Full Duplex, Flow Control: None
[ 1582.569704] i40e 0000:01:00.0: VSI seid 388 Tx ring 8 disable timeout
[ 1623.756424] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 2, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[ 1623.756429] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 2
[ 1623.756810] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 2529.987804] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 4, NTC: 0x0, HWB: 0x0, NTU: 0x3, TAIL: 0x3, INT: 0x1
[ 2529.987812] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 4
[ 2529.988266] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 3602.872796] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 6, NTC: 0x0, HWB: 0x0, NTU: 0x2, TAIL: 0x2, INT: 0x1
[ 3602.872819] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 6
[ 3602.873267] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 5724.834824] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 4, NTC: 0x0, HWB: 0x0, NTU: 0x3, TAIL: 0x3, INT: 0x1
[ 5724.834848] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 4
[ 5724.835290] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 7212.972148] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 7, NTC: 0x0, HWB: 0x0, NTU: 0x2, TAIL: 0x2, INT: 0x1
[ 7212.972173] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 7
[ 7212.972629] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 7233.963960] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 6, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[ 7233.963985] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 6
[ 7233.964418] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 7260.843614] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 6, NTC: 0x0, HWB: 0x0, NTU: 0x4, TAIL: 0x4, INT: 0x1
[ 7260.843619] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 6
[ 7260.844002] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 7303.851242] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 6, NTC: 0x0, HWB: 0x0, NTU: 0x1, TAIL: 0x1, INT: 0x1
[ 7303.851265] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 6
[ 7303.851674] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 7911.844944] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 3, NTC: 0x0, HWB: 0x0, NTU: 0x4, TAIL: 0x4, INT: 0x1
[ 7911.844967] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 3
[ 7911.845409] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 7927.716717] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 3, NTC: 0x0, HWB: 0x0, NTU: 0x3, TAIL: 0x3, INT: 0x1
[ 7927.716724] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 2, hung_queue 3
[ 7927.766860] i40e 0000:01:00.0: VSI seid 388 Tx ring 0 disable timeout
[ 8007.843960] i40e 0000:01:00.0 enp1s0f0: tx_timeout: VSI_seid: 388, Q 12, NTC: 0x0, HWB: 0x0, NTU: 0x1eb, TAIL: 0x1eb, INT: 0x1
[ 8007.843984] i40e 0000:01:00.0 enp1s0f0: tx_timeout recovery level 1, hung_queue 12
[ 8007.844845] i40e 0000:01:00.0: VSI seid 388 Tx ring 8 disable timeout
Sur une machine acheté il y a quelques mois, mais avec une configuration identique au CPU prés, je n'ai pas l'erreur :
$ dmesg | grep i40e
[ 1.717393] i40e: Intel(R) Ethernet Connection XL710 Network Driver - version 2.1.14-k
[ 1.737179] i40e: Copyright (c) 2013 - 2014 Intel Corporation.
[ 1.759035] i40e 0000:01:00.0: fw 6.80.48603 api 1.7 nvm 6.00 0x800034e9 18.3.6
[ 2.047101] i40e 0000:01:00.0: MAC address: f8:f2:1e:21:e4:e0
[ 2.106832] i40e 0000:01:00.0: PCI-Express: Speed 8.0GT/s Width x8
[ 2.107881] i40e 0000:01:00.0: Features: PF-id[0] VFs: 64 VSIs: 66 QP: 8 RSS FD_ATR FD_SB NTUPLE DCB VxLAN Geneve PTP VEPA
[ 2.119865] i40e 0000:01:00.1: fw 6.80.48603 api 1.7 nvm 6.00 0x800034e9 18.3.6
[ 2.363371] i40e 0000:01:00.1: MAC address: f8:f2:1e:21:e4:e2
[ 2.373798] i40e 0000:01:00.1 eth1: NIC Link is Up, 10 Gbps Full Duplex, Flow Control: RX/TX
[ 2.391800] i40e 0000:01:00.1: PCI-Express: Speed 8.0GT/s Width x8
[ 2.406104] i40e 0000:01:00.1: Features: PF-id[1] VFs: 64 VSIs: 66 QP: 8 RSS FD_ATR FD_SB NTUPLE DCB VxLAN Geneve PTP VEPA
[ 2.407094] i40e 0000:01:00.0 enp1s0f0: renamed from eth0
[ 2.428159] i40e 0000:01:00.1 enp1s0f1: renamed from eth1
Je suis intrigué par la ligne qui indique que le port est UP: sur la machine qui pose problème, j'ai "Flow Control: None"
Sur celui qui est ok, j'ai "Flow Control: RX/TX"
D'où vient cette différence ?