Bonjour à tous,
Je tente de comprendre un problème assez complexe et inexpliqué à ce jour. Je possède plusieurs serveurs (chez OVH, Scaleway & co), et depuis chez moi (fibre Orange), j'ai un monitoring via Uptime Kuma, toutes les minutes, sur chacun de ces serveurs (ping et curl).
Très récemment, j'ai réinstallé un de ces serveurs, passant de Debian 11 à Debian 12. Pas de fail2ban & co, règles iptables vides.
Depuis, alors que je n'ai rien changé de spécial niveau réseau, j'ai régulièrement des blocages, qui sont de plus en plus long dès que le 1er blocage se déclenche. Exemple d'une nuit :
01h43-02h13 (30 minutes)
02h26-03h26 (1 heure)
03h28-05h28 (2 heures)
Lors de ces blocages, MTR fonctionne dans un sens (Orange vers OVH), mais pas dans l'autre (OVH vers Orange). Le ping d'Orange vers OVH, cependant, retourne des erreurs (étrange).
Quand je parle de blocage, c'est complet (SSH, ICMP, HTTP/HTTPS, ...).
Exemple :
curl -v http://54.38.38.159
* Trying 54.38.38.159:80...
* connect to 54.38.38.159 port 80 failed: Connection refused
* Failed to connect to 54.38.38.159 port 80 after 7 ms: Connection refused
* Closing connection 0
curl: (7) Failed to connect to 54.38.38.159 port 80 after 7 ms: Connection refused
Si je coupe un des deux monitorings (ping ou curl), le blocage cesse assez rapidement. Si je redémarre le serveur en mode rescue (où il n'y a pas de http/https ouvert par défaut), ça revient rapidement (mais pas immédiatement). Ca ne se déclenche jamais la journée.
Quand tout va bien, le routage d'Orange vers OVH donnait cela :
└─# mtr -r 54.38.38.159
Start: 2023-09-07T07:14:15+0000
HOST: rpi4 Loss% Snt Last Avg Best Wrst StDev
1.|-- livebox.home 0.0% 10 1.0 0.9 0.7 1.1 0.1
2.|-- 80.10.239.9 0.0% 10 3.0 2.9 2.7 3.5 0.3
3.|-- ae102-0.ncidf103.rbci.ora 0.0% 10 3.3 3.4 2.2 6.3 1.1
4.|-- ae51-0.nridf101.rbci.oran 0.0% 10 3.2 3.4 3.1 3.6 0.2
5.|-- ae41-0.noidf001.rbci.oran 0.0% 10 3.5 3.7 3.2 5.4 0.6
6.|-- be102.par-th2-pb1-nc5.fr. 0.0% 10 25.9 9.6 3.7 31.7 10.5
7.|-- ??? 100.0 10 0.0 0.0 0.0 0.0 0.0
8.|-- ??? 100.0 10 0.0 0.0 0.0 0.0 0.0
9.|-- ??? 100.0 10 0.0 0.0 0.0 0.0 0.0
10.|-- be103.rbx-g4-nc5.fr.eu 0.0% 10 8.1 9.0 7.2 20.9 4.2
11.|-- ??? 100.0 10 0.0 0.0 0.0 0.0 0.0
12.|-- ??? 100.0 10 0.0 0.0 0.0 0.0 0.0
13.|-- ??? 100.0 10 0.0 0.0 0.0 0.0 0.0
14.|-- ??? 100.0 10 0.0 0.0 0.0 0.0 0.0
15.|-- mail.borezo.info 0.0% 10 6.9 7.2 6.7 7.9 0.4
Et OVH vers Orange :
Start: 2023-09-08T15:49:54+0200
HOST: rbx Loss% Snt Last Avg Best Wrst StDev
1.|-- 54.38.38.252 0.0% 10 0.4 0.5 0.4 0.6 0.1
2.|-- 10.162.250.98 0.0% 10 0.7 0.6 0.5 0.7 0.1
3.|-- 10.72.52.32 0.0% 10 0.7 0.6 0.5 0.8 0.1
4.|-- 10.73.17.42 0.0% 10 0.2 0.2 0.2 0.3 0.1
5.|-- 10.95.64.152 0.0% 10 0.9 1.1 0.9 1.5 0.2
6.|-- 54.36.50.226 0.0% 10 4.6 4.4 4.2 4.6 0.2
7.|-- 10.200.2.73 0.0% 10 4.0 4.1 4.0 4.3 0.1
8.|-- ??? 100.0 10 0.0 0.0 0.0 0.0 0.0
9.|-- [MON IP PUBLIQUE] 0.0% 10 6.8 6.5 6.3 6.8 0.2
Quand ça déconne, Orange vers OVH :
idem que ci-dessus
Et OVH vers Orange :
Start: 2023-09-07T23:30:08+0200
HOST: rbx Loss% Snt Last Avg Best Wrst StDev
1.|-- 54.38.38.252 0.0% 10 0.6 0.5 0.3 0.7 0.1
2.|-- 10.162.250.98 0.0% 10 0.9 0.5 0.4 0.9 0.1
3.|-- 10.72.52.32 0.0% 10 0.5 0.5 0.4 0.7 0.1
4.|-- 10.73.17.42 0.0% 10 0.2 0.2 0.1 0.3 0.0
5.|-- 10.95.64.152 0.0% 10 1.1 1.2 1.1 1.5 0.1
6.|-- 54.36.50.226 0.0% 10 4.4 4.4 4.2 4.7 0.2
7.|-- 10.200.2.73 0.0% 10 78.0 11.6 4.1 78.0 23.4
8.|-- ??? 100.0 10 0.0 0.0 0.0 0.0 0.0
Selon moi, si ma livebox est en ligne 9 quand tout va bien, la ligne 8 est un équipement Orange, et le blocage a lieu à ce niveau là.
Suite à ces échanges avec OVH, ils ont changé le routage pour passer par OpenTransit. Même résultat.
Quand ça fonctionne, d'OVH vers Orange :
Start: 2023-09-11T16:31:13+0200
HOST: rbx Jttr Javg Jmax Loss% Snt Rcv Last Avg Best Wrst StDev
1. AS16276 54.38.38.252 0.2 0.1 0.2 0.0% 5 5 0.3 0.5 0.3 0.6 0.1
2. AS??? 10.162.250.98 0.1 0.1 0.2 0.0% 5 5 0.6 0.6 0.5 0.7 0.1
3. AS??? 10.72.52.32 0.1 0.1 0.3 0.0% 5 5 0.6 0.6 0.4 0.7 0.1
4. AS??? 10.73.17.42 0.1 0.1 0.1 0.0% 5 5 0.2 0.2 0.2 0.3 0.1
5. AS??? 10.95.64.152 0.1 0.1 0.3 0.0% 5 5 1.1 1.1 1.1 1.3 0.1
6. AS16276 par-th2-sbb1-nc5.fr.eu (54.36.50.226) 0.2 0.1 0.3 0.0% 5 5 4.1 4.3 4.1 4.6 0.2
7. AS??? 10.200.2.69 0.0 0.1 0.2 0.0% 5 5 4.3 4.3 4.3 4.5 0.1
8. AS??? ??? 0.0 0.0 0.0 100.0 5 0 0.0 0.0 0.0 0.0 0.0
9. AS??? bundle-ether306.pastr4.paris.opentransit.net (193.251.133.140) 0.1 0.1 0.2 0.0% 5 5 4.4 4.4 4.4 4.6 0.1
10. AS??? ae0-0.niidf101.rbci.orange.net (193.252.137.9) 0.0 0.0 0.1 0.0% 5 5 4.2 4.2 4.2 4.3 0.0
11. AS??? ae41-0.ncidf103.rbci.orange.net (193.252.159.42) 7.6 7.2 11.8 0.0% 5 5 25.7 14.7 4.5 25.7 8.3
12. AS??? lag-102.nemla--1.rbci.orange.net (193.253.80.137) 0.0 0.0 0.1 0.0% 5 5 4.6 4.6 4.6 4.7 0.1
13. AS3215 [MON FQDN] ([MON IP PUBLIQUE) 0.4 0.1 0.4 0.0% 5 5 6.6 6.3 6.2 6.6 0.2
Et quand ça déconne :
Start: 2023-09-12T07:33:01+0200
HOST: rbx Jttr Javg Jmax Loss% Snt Rcv Last Avg Best Wrst StDev
1. AS16276 54.38.38.252 0.1 0.1 0.2 0.0% 5 5 0.4 0.4 0.3 0.5 0.1
2. AS??? 10.162.250.98 0.0 0.3 0.7 0.0% 5 5 0.5 0.6 0.5 1.1 0.3
3. AS??? 10.72.52.32 0.2 0.1 0.3 0.0% 5 5 0.4 0.5 0.4 0.7 0.1
4. AS??? 10.73.17.42 0.0 0.0 0.0 0.0% 5 5 0.2 0.2 0.1 0.2 0.0
5. AS??? 10.95.64.152 0.2 2.6 6.8 0.0% 5 5 1.2 2.6 1.0 7.9 3.0
6. AS16276 par-th2-sbb1-nc5.fr.eu (54.36.50.226) 0.4 0.2 0.4 0.0% 5 5 4.1 4.4 4.1 4.6 0.2
7. AS??? 10.200.2.69 0.1 0.1 0.2 0.0% 5 5 4.3 4.3 4.2 4.4 0.1
8. AS??? ??? 0.0 0.0 0.0 100.0 5 0 0.0 0.0 0.0 0.0 0.0
9. AS??? bundle-ether306.pastr4.paris.opentransit.net (193.251.133.140) 0.2 0.1 0.2 0.0% 5 5 4.4 4.5 4.4 4.6 0.1
10. AS??? ae0-0.niidf101.rbci.orange.net (193.252.137.9) 0.0 0.1 0.1 0.0% 5 5 4.3 4.2 4.1 4.3 0.1
11. AS??? ae41-0.ncidf103.rbci.orange.net (193.252.159.42) 2.6 4.6 11.6 0.0% 5 5 4.6 8.2 4.5 16.1 4.8
12. AS??? lag-102.nemla--1.rbci.orange.net (193.253.80.137) 0.0 0.0 0.1 0.0% 5 5 4.7 4.7 4.6 4.7 0.0
13. AS??? ???
J'ai pensé à un blocage côté Livebox, j'ai tenté de réduire le pare-feu IPv4 à "faible" avec LiveboxMonitor, et j'ai tenté un redémarrage de la Livebox pendant le blocage, sans succès.
Avez-vous une idée de comment faire investiguer ça côté Orange ? Je me vois mal appeler le 3900 et évoquer cela
Romain