La Fibre

Télécom => Logiciels et systèmes d'exploitation => Linux Linux (usage serveur) => Discussion démarrée par: renaud07 le 28 mai 2019 à 02:16:57

Titre: Corruption de données : réseau ou HDD en cause ?
Posté par: renaud07 le 28 mai 2019 à 02:16:57
Bonsoir,

Travaillant sur mon projet de pack de MAJ pour windows, je rencontre un problème inquiétant : alors que je voulais revalider des modifications en réinstallant les MAJ sur une VM, j'ai remarqué qu'elles ne s'installaient plus... J'ai donc effacé et ré-extrait l'archive originale, et là tout était ok.

Pour en avoir le cœur net je lance un sha1sum sur tous les fichiers sur un autre dossier et là c'est le drame : quasi aucun SHA1 ne correspondait ! Heureusement que j'ai gardé le nom original des MAJ, car elles ont justement  le SHA1 dans leurs noms.

J'ai refait le test sur le dossier que je venais d'extraire et là tout concordait.

Le plus bizarre, c'est que ça doit être minime puisque elle s'exécutaient quand même. Pire : certaines, comme .NET, s'installe comme si de rien n'était, dans ce cas difficile de détecter que c'est corrompu

Je fais mes modifs en réseau via NFS (tout est sur mon NAS) et je copie également par le réseau les MAJ sur les VM. Est-ce qu'une commande NFS ou SMB mal terminée pourrait corrompre les fichiers ? A moins que ce soit le disque dur qui fasse n’importe quoi ? (Du coup j'ai un peu peur pour le reste des données qu'il y a dessus...) D'autant plus que celui-ci rebootait électriquement de façon aléatoire depuis quelques temps, j'ai échangé les prises d’alimentation avec le disque de backup et bizarrement ça ne le fait plus...  ??? Peut-être qu'il n'a pas trop apprécié ces coupures à répétition ?

Pourtant il n'a pas de secteur en rade ou autre alerte SMART, signe que ça commence à déconner.

Merci d'avance.
Titre: Corruption de données : réseau ou HDD en cause ?
Posté par: zoc le 28 mai 2019 à 08:41:10
Ca peut aussi être une barette de RAM défaillante (non ECC).

Chez moi j'ai une 16 GB qui contient une zone de 8 octets dont un des bits reste toujours à 1... Résultat toute donnée qui transite par cette zone est silencieusement corrompue. Je l'ai détectée par hasard suite à un crash d'une application de proxmox (cette machine fait tourner des VM et containers proxmox), mais elle était sans doute dans cet état depuis longtemps.

Depuis j'ai activé memtest au boot de tous mes hosts proxmox afin de détecter les pages mémoires défaillantes et les exclure.

Titre: Corruption de données : réseau ou HDD en cause ?
Posté par: vivien le 28 mai 2019 à 09:02:50
Je pensais que les pb de mémoire défectiueuses appartenaient au passé.

Aujourd'hui il n'y a plus de test mémoire au boot et les memtest autrefois populaire sont de moins en moins utilisés.
Titre: Corruption de données : réseau ou HDD en cause ?
Posté par: renaud07 le 28 mai 2019 à 13:32:27
Merci pour la piste zoc. Pas très rassurant du coup...

Je viens de lancer un memtest sur mon pc et je ferais de même sur le NAS mais il faut que j'y branche écran/clavier avant...

Par contre ça risque d'être long avec 10 Go a tester... Heureusement qu'il n'y en a que 2 sur le NAS.

Titre: Corruption de données : réseau ou HDD en cause ?
Posté par: lecteur1 le 28 mai 2019 à 13:52:32
Je pensais que les pb de mémoire défectiueuses appartenaient au passé.

Aujourd'hui il n'y a plus de test mémoire au boot et les memtest autrefois populaire sont de moins en moins utilisés.

C'est malheureusement vrai d'où l'intérêt lorsque l'on construit un PC neuf d'effectuer au minimum un vrai memtest.
Personnellement, j'en effectue 1 tous les 6 mois. J'ai due changer mes barrettes au dernier test car elles avaient qqs défaillances ( 3 1/2 d'age) ...
Titre: Corruption de données : réseau ou HDD en cause ?
Posté par: vivien le 28 mai 2019 à 14:20:38
Ce qui est dommage, c'est que MemTest n'est plus proposé quand tu boot en UEFI (en mode BIOS / Legacy, les distributions proposent généralement une entrée MemTest)

Exemple avec une clé USB avec Ubuntu 19.04 :

Boot mode BIOS / Legacy : un test de mémoire est proposé

(https://lafibre.info/testdebit/ubuntu/201904_ubuntu_boot_bios_legacy_0.png)

(https://lafibre.info/testdebit/ubuntu/201904_ubuntu_boot_bios_legacy_3.png)


Boot mode UEFI : pas de test de mémoire possible

(https://lafibre.info/testdebit/ubuntu/201904_ubuntu_boot_uefi_0.png)

(https://lafibre.info/testdebit/ubuntu/201904_ubuntu_boot_uefi_1.png)
Titre: Corruption de données : réseau ou HDD en cause ?
Posté par: renaud07 le 28 mai 2019 à 15:13:19
A priori, rien sur mon PC (1 passe effectuée).

Le NAS est en cours.
Titre: Corruption de données : réseau ou HDD en cause ?
Posté par: renaud07 le 28 mai 2019 à 15:51:32
Rien non plus pour le NAS...

Sinon je pense à un truc  : est-ce que le NAT peut provoquer des erreurs ? Car il était activé sur les VM.
Titre: Corruption de données : réseau ou HDD en cause ?
Posté par: alegui le 28 mai 2019 à 16:28:45
Quelles sont les options de montage de NFS ? Dans certains cas, les opérations peuvent avoir un time-out, s'il est atteint, les fichiers modifiés peuvent être corrompus...

Sinon, petit HS mais les deux barettes de ram d'1 go doivent ralentir ton PC, avec elles tu perds le dual-channel et ralentis la fréquence mémoire. (mais tu as peut-être besoin du surplus pour Promox)
Titre: Corruption de données : réseau ou HDD en cause ?
Posté par: zoc le 28 mai 2019 à 16:31:17
Personnellement, j'en effectue 1 tous les 6 mois.
Le noyau linux contient un test de mémoire (11 ou 12 passes je crois avec des patterns différents) qui s'active en ajoutant "memtest" aux options de boot du noyau. Evidemment ça ralentit le démarrage de la machine (surtout quand on commence à avoir pas mal de RAM, j'ai 32 Go sur celle qui pose problème, mais c'est un homelab en ce qui me concerne donc peu importe), mais après du coup les pages fautives sont automatiquement exclues des demandes d'allocation mémoire, ce qui peut être une solution temporaire le temps de remplacer la/les barettes fautives).
Titre: Corruption de données : réseau ou HDD en cause ?
Posté par: renaud07 le 28 mai 2019 à 16:56:15
Quelles sont les options de montage de NFS ? Dans certains cas, les opérations peuvent avoir un time-out, s'il est atteint, les fichiers modifiés peuvent être corrompus...

Sinon, petit HS mais les deux barettes de ram d'1 go doivent ralentir ton PC, avec elles tu perds le dual-channel et ralentis la fréquence mémoire. (mais tu as peut-être besoin du surplus pour Promox)

Les options : rw,sync,root_squash,no_subtree_check (j'ai aussi pensé au fameux async, mais heureusement j'avais laissé sync)

Pour la RAM je ne suis pas en dual-channel ? C'est bizarre... pourtant elles sont bien sur les emplacements de même couleur...

Par contre proxmox n'est pas du tout installé. Je l'avais testé mais très vite dégagé car je perdais trop en accès disque (même attaché directement aux VMs). De même tu sembles confondre, c'est le NAS que j'avais testé avec proxmox. Les VMs windows en question tournent sur mon desktop sur virtualbox ou VMware.
Titre: Corruption de données : réseau ou HDD en cause ?
Posté par: alegui le 28 mai 2019 à 17:46:55
Les options : rw,sync,root_squash,no_subtree_check (j'ai aussi pensé au fameux async, mais heureusement j'avais laissé sync)

Pour la RAM je ne suis pas en dual-channel ? C'est bizarre... pourtant elles sont bien sur les emplacements de même couleur...

Par contre proxmox n'est pas du tout installé. Je l'avais testé mais très vite dégagé car je perdais trop en accès disque (même attaché directement aux VMs). De même tu sembles confondre, c'est le NAS que j'avais testé avec proxmox. Les VMs windows en question tournent sur mon desktop sur virtualbox ou VMware.
Ca m'a l'air bon pour le montage NFS.

Pour la RAM quand la configuration n'est pas parfaitement symétrique la performance est moindre même affiché en dual channel. La différence est relativement faible, cela dit.
Titre: Corruption de données : réseau ou HDD en cause ?
Posté par: renaud07 le 28 mai 2019 à 18:07:01
Ca m'a l'air bon pour le montage NFS.

 :)

J'ai de nouveau extrait tous les fichiers, je vais voir si j'ai toujours des corruptions d'ici quelques temps. Je vais également passer toutes les VM en bridge, histoire d’éliminer un problème de NAT et de SMB qui ne seraient pas très copain.

Pour la RAM quand la configuration n'est pas parfaitement symétrique la performance est moindre même affiché en dual channel. La différence est relativement faible, cela dit.

C'est bien ce que je me disais, dual-channel ou pas la différence est minime.

Et puis je n'avais que ça sous la main... j'ai rajouté ces 2 barrettes à la va vite, car je swappais à certains moments si j'en allouais trop aux VMs (si firefox ne consommait pas presque 3 Go pour quelques onglets ouverts ça irait peut-être mieux  ::) )
Titre: Corruption de données : réseau ou HDD en cause ?
Posté par: Thornhill le 28 mai 2019 à 21:46:07
j'ai aussi pensé au fameux async, mais heureusement j'avais laissé sync

L'option async joue sur les écritures différées donc sur la cohérence des données entre les différents clients NFS d'un même partage, mais ne provoque pas en soi de corruption (même si elle peut les aggraver).
C'est l'option soft qui provoque des corruptions en cas de problèmes réseau prolongés au-delà des timeout/retrans NFS (si UDP utilisé) ou des retransmissions TCP si ce dernier est utilisé : avec l'option hard en revanche (par défaut maintenant), le client essaye indéfiniment d'envoyer la requête.