J'ai un souci que je n'arrive pas à cerner sur ma VM OpenWRT (sur NUC N5105). J'ai aucun package custo installé, c'est quasi 100 % le tuto. J'ai juste un Adguard en upstream hosté sur un container LXC.
Il est dans une VM virtualisée sur Proxmox et de manière aléatoire, après 24 à 72 heures, la VM ne répond plus et CPU passe à 100% sur proxmox.
J'ai essayé de rebooter une fois par jour la nuit, pas de différence. J'ai regardé si ça correspondait à une expiration de bail DHCP Orange, pas de rapport non plus.
J'ai extrait les logs avec rsyslog sur mon NAS, j'ai essayé de faire des top réguliers ou juste avant que ça pète, tout est à 0. Rien dans le journal ou le dmesg du OpenWRT avant que ça crash.
Je ne suis pas sûr que ça soit le CPU de la VM elle-même mais ça pourrait être aussi un problème d'IO sur la VM, ça fait aussi 100 % si je simule des IO via stress sur la VM OpenWRT. Pas de prob de température sur le NUC lui-même. Juste un doute sur le M2 qui indique des erreurs dans smartd mais visiblement c'est "courant".
J'ai cherché plein de trucs. J'ai vu qu'il y avait un bug dans dnsmasq qui pouvait le faire monter à 100 % de CPU si pas de réponse de l'upstream. J'ai mis exprès une version plus récente et non, ça ne semble pas venir de ça non plus...
Dès que l'OpenWRT part en sucette, tout le réseau tombe. Le seul workaround que j'ai, c'est de monitorer le CPU de la VM sur Proxmox via l'API et de stop/start la VM dès que le CPU > 80 %. La VM et Internet remontent en 30 secondes.
J'ai un autre container LXC qui n'a aucun problème et le Proxmox lui-même est bien stable. Juste cette VM OpenWRT qui déconnne périodiquement. :-/
Si jamais ça parle à quelqu'un...