Auteur Sujet: Déterminer les pb d'un disque dur avec smartctl  (Lu 13594 fois)

0 Membres et 1 Invité sur ce sujet

vivien

  • Administrateur
  • *
  • Messages: 47 086
    • Twitter LaFibre.info
Déterminer les pb d'un disque dur avec smartctl
« Réponse #12 le: 23 juillet 2015 à 18:19:31 »
Merci pour la proposition ne les jette pas.

Je suis fan de vieux matériel, et mon Compaq bi pentium III de collection a perdu son disque 18,2 Go 10 000 tr/min Ultra3 SCSI sur son RAID-5. 5 disques 10 00 tr/min Ultra3 SCSI dans le serveur : 2 x 9,1 Go en RAID 1 pour le système d'exploitation et 3 x 18,2 Go en RAID 5 pour les données. Si tu as des vieillerie comme ça il faut pas jeter. Le serveur ne sait pas gérer les disques IDE ou SATA : uniquement SCSI.

Sinon, je dois dire que j’apprécie Dell en constructeur de serveur, car pas de souci pour changer du matériel, au moins sur les modèles entrée de gamme.

Pour la durée de vie des disques dur, je ne suis pas persuadé qu'un disque por tombe moins en panne qu'un disque classique.
J'avais acheté un "Western Digital Caviar Black", le haut de gamme SATA qui coûte super cher => il est tombé en panne après 3 ans (mais avec la garantie de 5 ans pas de souci)

BadMax

  • Client Free adsl
  • Expert
  • *
  • Messages: 3 481
  • Malissard (26)
Déterminer les pb d'un disque dur avec smartctl
« Réponse #13 le: 23 juillet 2015 à 19:19:25 »
Je suis comme Vivien: j'ai arrêté de faire du RAID pour mes données principales et préfère tout gérer avec ZFS et des snapshots quotidiens exportés d'un disque à l'autre en plus d'une externe manuelle.

Par contre j'utilise du RAID5 pour 4 disques SCSI 36Go 10000rpm pour les images de mes VMs VirtualBox: les temps de réponse sont excellents !

Note sur les disques EMC: j'ai récupéré les memes, ils sont bruyants et ne supportent pas toutes les cartes mères du fait du delai au demarrage apres mise sous tension (le disque attend un ordre). Sinon c'est parfait en H24 :)

miky01

  • Expert. Réseau RESO-LIAin (01)
  • Abonné K-Net
  • *
  • Messages: 3 829
  • Farges (01)
Déterminer les pb d'un disque dur avec smartctl
« Réponse #14 le: 23 juillet 2015 à 22:18:38 »
Je jette rien... je me fait assez engeuler pour ca  :)

J'ai fais mes cartons de disc, en wide scsi j'ai 2 Segate 18.2 Gb, un 10k et un 15k, plus un Quantum 18.2/10k
C'est les 3 seuls qu j'ai en 18.2 Gb, si ca peux te dépaner ?

vivien

  • Administrateur
  • *
  • Messages: 47 086
    • Twitter LaFibre.info
Déterminer les pb d'un disque dur avec smartctl
« Réponse #15 le: 23 juillet 2015 à 23:43:07 »
Oui, cela m'intéresse, le jour où l'on se verra (je vais essayer d'organiser une visite de datacenter sur Lyon)

vivien

  • Administrateur
  • *
  • Messages: 47 086
    • Twitter LaFibre.info
Déterminer les pb d'un disque dur avec smartctl
« Réponse #16 le: 06 septembre 2015 à 09:48:33 »
Je cherche à voir l’état de disques dur IBM SAS 73,4 Go qui sont à 15 000 tr/min et qui ont tourné à cette vitesse pendant 7 ans sans s’arrêter.

C'est normal de ne pas avoir de données Smart ?


C'est un serveur IBM System x3550 1u (Intel Xeon E5430 @2.66GHz) avec deux disques SAS Hot-Swap de 3,5 pouces.

La carte RAID intégrée a la carte mère du serveur :
02:00.0 RAID bus controller: Adaptec AAC-RAID (Rocket) (rev 02)
   Subsystem: IBM ServeRAID 8k/8k-l8
   Flags: bus master, fast devsel, latency 0, IRQ 17
   Memory at cce00000 (64-bit, non-prefetchable) [size=2M]
   Memory at cafe0000 (64-bit, prefetchable) [size=128K]
   I/O ports at 4000 [size=256]
   [virtual] Expansion ROM at cb000000 [disabled] [size=32K]
   Capabilities: <access denied>
   Kernel driver in use: aacraid


Données Smart sur /dev/sda : c'est le contrôleur RAID IBM ServeRAID 8k :
# smartctl -a /dev/sda
smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.19.0-26-generic] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor:               ServeRA
Product:              Drive 1
Revision:             V1.0
User Capacity:        73 283 928 064 bytes [73,2 GB]
Logical block size:   512 bytes
scsiModePageOffset: response length too short, resp_len=4 offset=4 bd_len=0
scsiModePageOffset: response length too short, resp_len=4 offset=4 bd_len=0
>> Terminate command early due to bad response to IEC mode page
A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.

Données Smart sur /dev/sg0 : c'est le lecteur de DVD IDE :
# smartctl -a /dev/sg0
smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.19.0-26-generic] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor:               MATSHITA
Product:              UJDA780 DVD/CDRW
Revision:             CA21
>> Terminate command early due to bad response to IEC mode page
A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.

Données Smart sur /dev/sg1 : c'est le contrôleur RAID IBM ServeRAID 8k :
# smartctl -a /dev/sg1
smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.19.0-26-generic] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor:               ServeRA
Product:              Drive 1
Revision:             V1.0
User Capacity:        73 283 928 064 bytes [73,2 GB]
Logical block size:   512 bytes
scsiModePageOffset: response length too short, resp_len=4 offset=4 bd_len=0
scsiModePageOffset: response length too short, resp_len=4 offset=4 bd_len=0
>> Terminate command early due to bad response to IEC mode page
A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.

Données Smart sur /dev/sg2 : c'est le premier disque dur SAS de 73,4 Go 15 000 tr/min :
Problème, il manque beaucoup d'informations...

# smartctl -a /dev/sg2
smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.19.0-26-generic] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor:               IBM-ESXS
Product:              ST373455SS
Revision:             BA26
User Capacity:        73 407 488 000 bytes [73,4 GB]
Logical block size:   512 bytes
Rotation Rate:        15015 rpm
Logical Unit id:      0x5000c5000a856087
Serial number:        3LQ3BSZD00009846R5C5
Device type:          disk
Transport protocol:   SAS (SPL-3)
Local Time is:        Sun Sep  6 09:39:45 2015 CEST
SMART support is:     Available - device has SMART capability.
SMART support is:     Enabled
Temperature Warning:  Enabled

=== START OF READ SMART DATA SECTION ===
SMART Health Status: OK

Current Drive Temperature:     32 C
Drive Trip Temperature:        68 C

^[[AElements in grown defect list: 0

Vendor (Seagate) cache information
  Blocks sent to initiator = 3284775082
  Blocks received from initiator = 1815987392
  Blocks read from cache and sent to initiator = 97355681
  Number of read and write commands whose size <= segment size = 687239190
  Number of read and write commands whose size > segment size = 0

Vendor (Seagate/Hitachi) factory information
  number of hours powered up = 58001,67
  number of minutes until next internal SMART test = 58

Error counter log:
           Errors Corrected by           Total   Correction     Gigabytes    Total
               ECC          rereads/    errors   algorithm      processed    uncorrected
           fast | delayed   rewrites  corrected  invocations   [10^9 bytes]  errors
read:   11131499        0         0  11131499   11131499        943,352           0
write:         0        0         0         0          0       5372,021           0
verify: 80016935        0         0  80016935   80016935      51316,364           0

Non-medium error count:        1

No self-tests have been logged

Données Smart sur /dev/sg3 : c'est le premier disque dur SAS de 73,4 Go 15 000 tr/min :
Problème, il manque beaucoup d'informations...

# smartctl -a /dev/sg3
smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.19.0-26-generic] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor:               IBM-ESXS
Product:              ST373455SS
Revision:             BA26
User Capacity:        73 407 488 000 bytes [73,4 GB]
Logical block size:   512 bytes
Rotation Rate:        15015 rpm
Logical Unit id:      0x5000c5000a855633
Serial number:        3LQ3BV8B00009846W113
Device type:          disk
Transport protocol:   SAS (SPL-3)
Local Time is:        Sun Sep  6 09:39:50 2015 CEST
SMART support is:     Available - device has SMART capability.
SMART support is:     Enabled
Temperature Warning:  Enabled

=== START OF READ SMART DATA SECTION ===
SMART Health Status: OK

Current Drive Temperature:     31 C
Drive Trip Temperature:        68 C

Elements in grown defect list: 0

Vendor (Seagate) cache information
  Blocks sent to initiator = 3205604436
  Blocks received from initiator = 1815975535
  Blocks read from cache and sent to initiator = 93893718
  Number of read and write commands whose size <= segment size = 686719180
  Number of read and write commands whose size > segment size = 0

Vendor (Seagate/Hitachi) factory information
  number of hours powered up = 58065,97
  number of minutes until next internal SMART test = 58

Error counter log:
           Errors Corrected by           Total   Correction     Gigabytes    Total
               ECC          rereads/    errors   algorithm      processed    uncorrected
           fast | delayed   rewrites  corrected  invocations   [10^9 bytes]  errors
read:   17692594        3         0  17692597   17692597        921,138           0
write:         0        0         0         0          0       5373,050           0
verify: 607888953        0         0  607888953   607888953      51306,641           0

Non-medium error count:       14

No self-tests have been logged

Les performances de ces vieux disques en RAID1 via la carte RAID intégrée :


Documentation de 2006 : (cliquez sur les miniatures ci-dessous - les documents sont au format PDF)


Documentation de 2008 : (cliquez sur la miniature ci-dessous - le document est au format PDF)

BadMax

  • Client Free adsl
  • Expert
  • *
  • Messages: 3 481
  • Malissard (26)
Déterminer les pb d'un disque dur avec smartctl
« Réponse #17 le: 06 septembre 2015 à 10:08:11 »
C'est parce que toutes les données SMART ne sont pas obligatoires, seul l'état de santé global du disque l'est.

Pour comparaison, Fujitsu 73Go SCSI U320 10000rpm
root@nikita:~# smartctl -a /dev/sdc
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-54-generic] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor:               FUJITSU
Product:              MAP3735NP
Revision:             5605
User Capacity:        73 407 820 800 bytes [73,4 GB]
Logical block size:   512 bytes
Rotation Rate:        10025 rpm
Serial number:        UPG3P2C0083J
Device type:          disk
Transport protocol:   Parallel SCSI (SPI-4)
Local Time is:        Sun Sep  6 10:04:59 2015 CEST
SMART support is:     Available - device has SMART capability.
SMART support is:     Enabled
Temperature Warning:  Enabled

=== START OF READ SMART DATA SECTION ===
SMART Health Status: OK

Current Drive Temperature:     26 C
Drive Trip Temperature:        65 C

Manufactured in week 51 of year 2002
Specified cycle count over device lifetime:  10000
Accumulated start-stop cycles:  556
Elements in grown defect list: 0

Error counter log:
           Errors Corrected by           Total   Correction     Gigabytes    Total
               ECC          rereads/    errors   algorithm      processed    uncorrected
           fast | delayed   rewrites  corrected  invocations   [10^9 bytes]  errors
read:          0      241         0         0          0     176294,849           0
write:         0      123         0         0          0      71885,676           0
verify:        0        0         0         0          0          0,320           0

Non-medium error count:      732

SMART Self-test log
Num  Test              Status                 segment  LifeTime  LBA_first_err [SK ASC ASQ]
     Description                              number   (hours)
# 1  Background long   Completed                   -   45915                 - [-   -    -]
# 2  Background long   Completed                   -       0                 - [-   -    -]
# 3  Background short  Completed                   -       0                 - [-   -    -]
Long (extended) Self Test duration: 2191 seconds [36,5 minutes]

Hitachi 73Go U320 15k rpm
root@nikita:~# smartctl -a /dev/sdd
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-54-generic] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor:               HITACHI
Product:              HUS151473VL3600
Revision:             S3BA
User Capacity:        73 407 820 800 bytes [73,4 GB]
Logical block size:   512 bytes
Rotation Rate:        15000 rpm
Logical Unit id:      0x5000cca006d49d75
Serial number:        JCWGAVLK
Device type:          disk
Transport protocol:   Parallel SCSI (SPI-4)
Local Time is:        Sun Sep  6 10:06:33 2015 CEST
SMART support is:     Available - device has SMART capability.
SMART support is:     Enabled
Temperature Warning:  Enabled

=== START OF READ SMART DATA SECTION ===
SMART Health Status: OK

Current Drive Temperature:     33 C
Drive Trip Temperature:        85 C

Manufactured in week 20 of year 2007
Specified cycle count over device lifetime:  50000
Accumulated start-stop cycles:  960
Elements in grown defect list: 0

Vendor (Seagate) cache information
  Blocks sent to initiator = 706832565796864

Error counter log:
           Errors Corrected by           Total   Correction     Gigabytes    Total
               ECC          rereads/    errors   algorithm      processed    uncorrected
           fast | delayed   rewrites  corrected  invocations   [10^9 bytes]  errors
read:     106718    32835         0    106718         11       1896,920           0
write:     99816        0         0     99816          0        855,047           0
verify:     9262     2267         0      9262          0         20,358           0

Non-medium error count:        1

SMART Self-test log
Num  Test              Status                 segment  LifeTime  LBA_first_err [SK ASC ASQ]
     Description                              number   (hours)
# 1  Background long   Completed                   -    7232                 - [-   -    -]
Long (extended) Self Test duration: 1205 seconds [20,1 minutes]

Comme tu peux le voir, sur chacun j'ai effectué un auto-test long afin d'avoir un vrai bilan, tu devrais faire de même.

vivien

  • Administrateur
  • *
  • Messages: 47 086
    • Twitter LaFibre.info
Déterminer les pb d'un disque dur avec smartctl
« Réponse #18 le: 06 septembre 2015 à 11:13:20 »
Après un 'auto-test long :

/dev/sg2
# smartctl -a /dev/sg2
smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.19.0-26-generic] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor:               IBM-ESXS
Product:              ST373455SS
Revision:             BA26
User Capacity:        73 407 488 000 bytes [73,4 GB]
Logical block size:   512 bytes
Rotation Rate:        15015 rpm
Logical Unit id:      0x5000c5000a856087
Serial number:        3LQ3BSZD00009846R5C5
Device type:          disk
Transport protocol:   SAS (SPL-3)
Local Time is:        Sun Sep  6 11:09:59 2015 CEST
SMART support is:     Available - device has SMART capability.
SMART support is:     Enabled
Temperature Warning:  Enabled

=== START OF READ SMART DATA SECTION ===
SMART Health Status: OK

Current Drive Temperature:     33 C
Drive Trip Temperature:        68 C

Elements in grown defect list: 0

Vendor (Seagate) cache information
  Blocks sent to initiator = 3288230457
  Blocks received from initiator = 1816127472
  Blocks read from cache and sent to initiator = 97484929
  Number of read and write commands whose size <= segment size = 687246043
  Number of read and write commands whose size > segment size = 0

Vendor (Seagate/Hitachi) factory information
  number of hours powered up = 58002,15
  number of minutes until next internal SMART test = 39

Error counter log:
           Errors Corrected by           Total   Correction     Gigabytes    Total
               ECC          rereads/    errors   algorithm      processed    uncorrected
           fast | delayed   rewrites  corrected  invocations   [10^9 bytes]  errors
read:   11792497        0         0  11792497   11792497        944,215           0
write:         0        0         0         0          0       5372,093           0
verify: 80026932        0         0  80026932   80026932      51317,284           0

Non-medium error count:        1

SMART Self-test log
Num  Test              Status                 segment  LifeTime  LBA_first_err [SK ASC ASQ]
     Description                              number   (hours)
# 1  Background long   Completed                   -   58002                 - [-   -    -]

Long (extended) Self Test duration: 721 seconds [12,0 minutes]

/dev/sg3 :
# smartctl -a /dev/sg3
smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.19.0-26-generic] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor:               IBM-ESXS
Product:              ST373455SS
Revision:             BA26
User Capacity:        73 407 488 000 bytes [73,4 GB]
Logical block size:   512 bytes
Rotation Rate:        15015 rpm
Logical Unit id:      0x5000c5000a855633
Serial number:        3LQ3BV8B00009846W113
Device type:          disk
Transport protocol:   SAS (SPL-3)
Local Time is:        Sun Sep  6 11:12:22 2015 CEST
SMART support is:     Available - device has SMART capability.
SMART support is:     Enabled
Temperature Warning:  Enabled

=== START OF READ SMART DATA SECTION ===
SMART Health Status: OK

Current Drive Temperature:     32 C
Drive Trip Temperature:        68 C

Elements in grown defect list: 0

Vendor (Seagate) cache information
  Blocks sent to initiator = 3209416645
  Blocks received from initiator = 1816159359
  Blocks read from cache and sent to initiator = 94053268
  Number of read and write commands whose size <= segment size = 686726467
  Number of read and write commands whose size > segment size = 0

Vendor (Seagate/Hitachi) factory information
  number of hours powered up = 58066,50
  number of minutes until next internal SMART test = 37

Error counter log:
           Errors Corrected by           Total   Correction     Gigabytes    Total
               ECC          rereads/    errors   algorithm      processed    uncorrected
           fast | delayed   rewrites  corrected  invocations   [10^9 bytes]  errors
read:   18476429        3         0  18476432   18476432        922,152           0
write:         0        0         0         0          0       5373,144           0
verify: 607893947        0         0  607893947   607893947      51307,587           0

Non-medium error count:       14

SMART Self-test log
Num  Test              Status                 segment  LifeTime  LBA_first_err [SK ASC ASQ]
     Description                              number   (hours)
# 1  Background long   Completed                   -   58066                 - [-   -    -]

Long (extended) Self Test duration: 721 seconds [12,0 minutes]

seb

  • Pau Broadband Country (64)
  • Abonné SFR fibre FttH
  • *
  • Messages: 515
  • FTTH 1 Gbps sur Pau (64)
Déterminer les pb d'un disque dur avec smartctl
« Réponse #19 le: 06 septembre 2015 à 13:45:32 »
C'est parce que toutes les données SMART ne sont pas obligatoires, seul l'état de santé global du disque l'est.
Ou parce que les disques sont branchés en direct sur le contrôleur RAID et que celui-ci n'implèmente pas (toutes) les ioctl nécessaires à SMART.
Le même problème se pose souvent avec des disques installés dans des boîtiers USB : le contrôleur USB/SATA ne remonte qu'une partie des infos normalement présentées par le disque (quand il en remonte !).

BadMax

  • Client Free adsl
  • Expert
  • *
  • Messages: 3 481
  • Malissard (26)
Déterminer les pb d'un disque dur avec smartctl
« Réponse #20 le: 06 septembre 2015 à 16:04:45 »
Je n'ai pas de controleur RAID, je suis en direct via une 39320 et j'ai les memes datas que vivien :)

Souvent le controleur RAID ne montre qu'un lecteur logique et les données SMART sont inaccessibles. Vivien a meme du bol que le sien permette d'y accèder.

En USB vers SATA c'est encore différent car tu utilises un bridge entre les 2 bus.