...
On est complètement hors sujet....
Absolutly
[HS]
Mais tant qu'on y ai :
...
Je pense qu'il est possible avec certaines cartes de sauter les erreurs mais tu ne sais pas si tu vas récupérer tes données. Tu sait qu'une partie du disque na pas été recopiée sans savoir si c'est des données ou du vide.
...
C'est normalement 'déjà' fait au niveau des disques SCSI 'haut de gamme' depuis longue date : ils intègrent eux même des pistes de 'spare' individuellement et remplacent à la volée sans intervention du controleur ni de l'os.
La première erreur secteur sur ces disques remontée à la carte controleur et à l'os, intervient alors lorsque le disque lui même n'a plus de place dans son 'spare'.
Normalement les disques de 'maintenant' intègrent pour la plupard cette fonctionnalité (en particulier ceux pour les serveurs, scsi, sas). Il ne faut juste pas voir que le 'prix' ...
Il est donc très probable que des défauts tels que les secteurs illisibles ne soient pas détectés pendant une très longue période => tout simplement car le disque est a moitié vide.
D'où l'importance de tests 'réguliers' de la surface
Ce n'est pas parce qu'on est en 'RAID' qu'il faut se croire à l'abris
Ceci est encore plus vrai quand je vois des installs RAID et des sauvegardes des plus 'bancales' ou pas du tout en pensant que le 'RAID' nous sauve
Les principes fondamentaux du RAID :
- une BONNE installation de RAID, c'est DEJA PREVOIR au moins UN DISQUE DE SPARE en permanence dans la machine, afin que l'on ne reste pas même quelques heures sans 'RAID'. Car le cas de disques de la même série qui tombent en panne 'en série' justement n'est pas à négliger.
- Puisqu'on a du 'spare', de temps à autre on l'active, pour pouvoir scanner le remplacé, qu'on remet ensuite en 'spare' (rotation de l'usage des disques), ce qui évite aussi de se retrouver avec un 'spare' défectueux
- un RAID n'est pas un moyen de 'délaisser' des sauvegardes rondement menées et contrôlées (plusieurs jeux tournants sur plusieurs semaines voir mois, ...)
Nombre de gens ne font alors avec du 'raid' que des sauvegardes 'quand j'y pense', ou ne les contrôlent plus vraiment (quand automatisées) jsute regardant 'ok', sans jamais les 'tester' pensant que le 'raid' est là pour les sauver (manque de bol, le raid est hs et irréparable, et les sauvegardes aussi ...)
- un RAID n'est rien d'autre qu'un tas de 'disques', il y a donc lieu de contrôler individuellement ces disques régulièrement (scans surfaces, ...) pour éviter les désagrements de pannes en cascades ou le pb 'erreur hard secteur avec plus de 'spare' interne aux disques'.
- Il faut aussi configurer les outils de contrôle du RAID et de prévention et alertes pour interroger les disques sur leur état interne afin d'avoir justement ce genre de remontés préventives (système S.M.A.R.T. hard disk status and hard disk failure prevention, que les disques modernes intégrent 'presque tous') et les remplacer à la première alerte plutôt qu'attendre 'trop tard' ...
(ce dernier point est aussi valable chez soi même sans 'raid'
)
...
Un exemple vrai des pb du raid :
Source :
Pourtant le RAID 10 est très fiable : "Sa fiabilité est assez grande puisqu'il faut que tous les éléments d'une grappe soient défectueux pour entraîner un défaut global. La reconstruction est assez performante puisqu'elle ne mobilise que les disques d'une seule grappe et non la totalité." https://fr.wikipedia.org/wiki/RAID_(informatique)
OVH a pour ce Filer 12 disques.
Chaque information est recopiée 3 fois dans chaque grappe sur chacun des disques.
Si on prend l'exemple de 12 disques de 500 GO, nous n'avons pas une capacitée de 6 To mais de 2 To. Chacune des 4 grappes contient 3 disques identique. Nous pouvons donc avoir 2 disques dans chaque grappe HS (soit 8 disques au total) sans problèmes. Par contre si une grappe a ses 3 disques HS en même temps on pert tout,
Auraient ils oublié une étape dans les 'principes fondamentaux du RAID ' ?