La Fibre

Datacenter et équipements réseaux => Équipements réseaux => Serveurs NAS, serveurs et micro-serveurs => Discussion démarrée par: vivien le 18 juillet 2015 à 18:10:31

Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: vivien le 18 juillet 2015 à 18:10:31
Déterminer les pb d'un disque dur avec smartctl

J'ai un disque dur d'un serveur, supervisé par Munin, qui me dit être en warning à cause d'une valeur en dehors de la plage autorisée "Note: This service is in WARNING state because one of the values reported is outside the allowed range. Please see further down for information about the ranges and the graph for the values."

J'ai un peu de mal a comprendre quelle est la valeur qui est hors de la plage...

Voici le graphe de Munin :
(https://lafibre.info/images/materiel/201507_smart_disque_dur_hs_1.png)

J'ai démarré sur une clé USB Ubuntu pour avoir les données SMART avec une interface graphique et il me dit que tout est normal :

(https://lafibre.info/images/materiel/201507_smart_disque_dur_hs_2.png)
Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: vivien le 18 juillet 2015 à 18:17:31
Voici le retour de smartctl -a :
# smartctl -a /dev/sda
smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.19.0-22-generic] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda ES.2
Device Model:     ST3500320NS
Serial Number:    9QMCNF1W
LU WWN Device Id: 5 000c50 01fea7d58
Add. Product Id:  DELL(tm)
Firmware Version: MA0D
User Capacity:    500 107 862 016 bytes [500 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    7200 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS T13/1699-D revision 4
SATA Version is:  SATA 2.6, 3.0 Gb/s
Local Time is:    Sat Jul 18 17:54:19 2015 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (  625) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: (   1) minutes.
Extended self-test routine
recommended polling time: ( 110) minutes.
Conveyance self-test routine
recommended polling time: (   2) minutes.
SCT capabilities:        (0x103d) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   080   054   044    Pre-fail  Always       -       116418904
  3 Spin_Up_Time            0x0003   099   099   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       38
  5 Reallocated_Sector_Ct   0x0033   091   091   036    Pre-fail  Always       -       188
  7 Seek_Error_Rate         0x000f   080   060   030    Pre-fail  Always       -       22023485619
  9 Power_On_Hours          0x0032   055   055   000    Old_age   Always       -       40045
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   037   020    Old_age   Always       -       38
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   086   086   000    Old_age   Always       -       14
188 Command_Timeout         0x0032   100   099   000    Old_age   Always       -       65
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   073   060   045    Old_age   Always       -       27 (Min/Max 26/27)
194 Temperature_Celsius     0x0022   027   040   000    Old_age   Always       -       27 (0 18 0 0 0)
195 Hardware_ECC_Recovered  0x001a   044   029   000    Old_age   Always       -       116418904
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       20
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       20
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0

SMART Error Log Version: 1
ATA Error Count: 95 (device log contains only the most recent five errors)
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 95 occurred at disk power-on lifetime: 38179 hours (1590 days + 19 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 00 ff ff ff 4f 00   8d+07:34:07.080  READ FPDMA QUEUED
  60 00 00 ff ff ff 4f 00   8d+07:34:07.079  READ FPDMA QUEUED
  60 00 00 ff ff ff 4f 00   8d+07:34:06.974  READ FPDMA QUEUED
  60 00 00 ff ff ff 4f 00   8d+07:34:06.973  READ FPDMA QUEUED
  60 00 00 ff ff ff 4f 00   8d+07:34:06.970  READ FPDMA QUEUED

Error 94 occurred at disk power-on lifetime: 38156 hours (1589 days + 20 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 00 ff ff ff 4f 00   7d+09:05:32.647  READ FPDMA QUEUED
  ea 00 00 00 00 00 a0 00   7d+09:05:32.635  FLUSH CACHE EXT
  60 00 00 ff ff ff 4f 00   7d+09:05:32.615  READ FPDMA QUEUED
  61 00 08 ff ff ff 4f 00   7d+09:05:32.615  WRITE FPDMA QUEUED
  ea 00 00 00 00 00 a0 00   7d+09:05:32.542  FLUSH CACHE EXT

Error 93 occurred at disk power-on lifetime: 38156 hours (1589 days + 20 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: WP at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  61 00 e0 38 6e c5 41 00   7d+08:45:28.971  WRITE FPDMA QUEUED
  60 00 08 ff ff ff 4f 00   7d+08:45:28.968  READ FPDMA QUEUED
  61 00 68 ff ff ff 4f 00   7d+08:45:28.968  WRITE FPDMA QUEUED
  27 00 00 00 00 00 e0 00   7d+08:45:28.937  READ NATIVE MAX ADDRESS EXT [OBS-ACS-3]
  ec 00 00 00 00 00 a0 00   7d+08:45:28.935  IDENTIFY DEVICE

Error 92 occurred at disk power-on lifetime: 38156 hours (1589 days + 20 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 08 ff ff ff 4f 00   7d+08:45:25.290  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00   7d+08:45:25.285  READ FPDMA QUEUED
  61 00 20 40 15 45 43 00   7d+08:45:25.285  WRITE FPDMA QUEUED
  61 00 28 80 11 45 43 00   7d+08:45:25.284  WRITE FPDMA QUEUED
  61 00 20 60 ff 44 43 00   7d+08:45:25.284  WRITE FPDMA QUEUED

Error 91 occurred at disk power-on lifetime: 38156 hours (1589 days + 20 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 00 ff ff ff 4f 00   7d+08:45:20.387  READ FPDMA QUEUED
  60 00 00 ff ff ff 4f 00   7d+08:45:20.385  READ FPDMA QUEUED
  60 00 00 ff ff ff 4f 00   7d+08:45:20.383  READ FPDMA QUEUED
  ea 00 00 00 00 00 a0 00   7d+08:45:20.368  FLUSH CACHE EXT
  60 00 00 ff ff ff 4f 00   7d+08:45:20.367  READ FPDMA QUEUED

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%         2         -
# 2  Short offline       Completed without error       00%         0         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Je pense par contre que le disque dur a quelques soucis, quand je vois ce type de messages :
(https://lafibre.info/images/materiel/201507_smart_disque_dur_hs_1.jpg)
Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: BadMax le 18 juillet 2015 à 20:27:43
La commande smartctl indique des erreurs dans les logs du disque. Essaye:

# smartctl -t long /dev/sda

Puis utilise l'option '-a' pour verifier l'avancement du test.
Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: BadMax le 18 juillet 2015 à 20:31:03
Tu pourrais nous donner le contenu de /etc/fstab pour /dev/sda2 ?
Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: mirtouf le 19 juillet 2015 à 11:44:16
Pour le futur, prévoir des tests smartctl de façon régulière est plutôt une bonne chose ; smartd.conf :
/dev/sda -a -o on -S on -s (S/../.././01|L/../../1/03) -m mail@ndd -M exec /usr/share/smartmontools/smartd-runner
/dev/sdb -a -o on -S on -s (S/../.././02|L/../../2/03) -m mail@ndd -M exec /usr/share/smartmontools/smartd-runner

mais ça sent quand même pas bon, une sauvegarde s'impose au plus vite.  :-\
Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: Nh3xus le 19 juillet 2015 à 13:10:07
Quand je vois :

Citer
  5 Reallocated_Sector_Ct   0x0033   091   091   036    Pre-fail  Always       -       188

et

Citer
Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       20

ça donne déjà une bonne idée de la mauvaise santé du disque.

Idéalement, ces valeurs doivent être égales à 0 sur un bon disque.
Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: vivien le 23 juillet 2015 à 10:32:14
Voici smartctl après avoir lancé deux tests long (plusieurs heures chacun)

Il y a donc bien des erreurs de lecture dans les 20% à la fin du disque :
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       20%     40054         844622245
# 2  Extended offline    Completed: read failure       20%     40048         844630767
# 3  Extended offline    Completed without error       00%         2         -
# 4  Short offline       Completed without error       00%         0         -


Par contre cela n'a pas incrèmenté les erreurs détaillées, qui sont toujours à "Error 95 occurred at disk power-on lifetime: 38179 hours (1590 days + 19 hours)"
# smartctl -a /dev/sda
smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.19.0-22-generic] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda ES.2
Device Model:     ST3500320NS
Serial Number:    9QMCNF1W
LU WWN Device Id: 5 000c50 01fea7d58
Add. Product Id:  DELL(tm)
Firmware Version: MA0D
User Capacity:    500 107 862 016 bytes [500 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    7200 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS T13/1699-D revision 4
SATA Version is:  SATA 2.6, 3.0 Gb/s
Local Time is:    Thu Jul 23 10:26:13 2015 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status:      ( 114) The previous self-test completed having
the read element of the test failed.
Total time to complete Offline
data collection: (  625) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: (   1) minutes.
Extended self-test routine
recommended polling time: ( 110) minutes.
Conveyance self-test routine
recommended polling time: (   2) minutes.
SCT capabilities:        (0x103d) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   074   054   044    Pre-fail  Always       -       239281957
  3 Spin_Up_Time            0x0003   099   099   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       40
  5 Reallocated_Sector_Ct   0x0033   091   091   036    Pre-fail  Always       -       188
  7 Seek_Error_Rate         0x000f   080   060   030    Pre-fail  Always       -       22023540966
  9 Power_On_Hours          0x0032   055   055   000    Old_age   Always       -       40064
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   037   020    Old_age   Always       -       40
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   080   080   000    Old_age   Always       -       20
188 Command_Timeout         0x0032   100   099   000    Old_age   Always       -       65
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   071   060   045    Old_age   Always       -       29 (Min/Max 26/35)
194 Temperature_Celsius     0x0022   029   040   000    Old_age   Always       -       29 (0 18 0 0 0)
195 Hardware_ECC_Recovered  0x001a   040   029   000    Old_age   Always       -       239281957
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       540
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       540
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0

SMART Error Log Version: 1
ATA Error Count: 95 (device log contains only the most recent five errors)
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 95 occurred at disk power-on lifetime: 38179 hours (1590 days + 19 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 00 ff ff ff 4f 00   8d+07:34:07.080  READ FPDMA QUEUED
  60 00 00 ff ff ff 4f 00   8d+07:34:07.079  READ FPDMA QUEUED
  60 00 00 ff ff ff 4f 00   8d+07:34:06.974  READ FPDMA QUEUED
  60 00 00 ff ff ff 4f 00   8d+07:34:06.973  READ FPDMA QUEUED
  60 00 00 ff ff ff 4f 00   8d+07:34:06.970  READ FPDMA QUEUED

Error 94 occurred at disk power-on lifetime: 38156 hours (1589 days + 20 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 00 ff ff ff 4f 00   7d+09:05:32.647  READ FPDMA QUEUED
  ea 00 00 00 00 00 a0 00   7d+09:05:32.635  FLUSH CACHE EXT
  60 00 00 ff ff ff 4f 00   7d+09:05:32.615  READ FPDMA QUEUED
  61 00 08 ff ff ff 4f 00   7d+09:05:32.615  WRITE FPDMA QUEUED
  ea 00 00 00 00 00 a0 00   7d+09:05:32.542  FLUSH CACHE EXT

Error 93 occurred at disk power-on lifetime: 38156 hours (1589 days + 20 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: WP at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  61 00 e0 38 6e c5 41 00   7d+08:45:28.971  WRITE FPDMA QUEUED
  60 00 08 ff ff ff 4f 00   7d+08:45:28.968  READ FPDMA QUEUED
  61 00 68 ff ff ff 4f 00   7d+08:45:28.968  WRITE FPDMA QUEUED
  27 00 00 00 00 00 e0 00   7d+08:45:28.937  READ NATIVE MAX ADDRESS EXT [OBS-ACS-3]
  ec 00 00 00 00 00 a0 00   7d+08:45:28.935  IDENTIFY DEVICE

Error 92 occurred at disk power-on lifetime: 38156 hours (1589 days + 20 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 08 ff ff ff 4f 00   7d+08:45:25.290  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00   7d+08:45:25.285  READ FPDMA QUEUED
  61 00 20 40 15 45 43 00   7d+08:45:25.285  WRITE FPDMA QUEUED
  61 00 28 80 11 45 43 00   7d+08:45:25.284  WRITE FPDMA QUEUED
  61 00 20 60 ff 44 43 00   7d+08:45:25.284  WRITE FPDMA QUEUED

Error 91 occurred at disk power-on lifetime: 38156 hours (1589 days + 20 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 00 ff ff ff 4f 00   7d+08:45:20.387  READ FPDMA QUEUED
  60 00 00 ff ff ff 4f 00   7d+08:45:20.385  READ FPDMA QUEUED
  60 00 00 ff ff ff 4f 00   7d+08:45:20.383  READ FPDMA QUEUED
  ea 00 00 00 00 00 a0 00   7d+08:45:20.368  FLUSH CACHE EXT
  60 00 00 ff ff ff 4f 00   7d+08:45:20.367  READ FPDMA QUEUED

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       20%     40054         844622245
# 2  Extended offline    Completed: read failure       20%     40048         844630767
# 3  Extended offline    Completed without error       00%         2         -
# 4  Short offline       Completed without error       00%         0         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay

A noter que avant de lancer les tests, j'ai récupéré avec sucés toutes les données du disque.

Pour 90% des données, j'avais un checksum (SHA256) et j'ai été étonné de n'avoir aucune erreur de checksum.
Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: vivien le 23 juillet 2015 à 10:33:15
Tu pourrais nous donner le contenu de /etc/fstab pour /dev/sda2 ?

C'est ça que tu souhaites ?

# cat /etc/fstab
# /etc/fstab: static file system information.
#
# Use 'blkid' to print the universally unique identifier for a
# device; this may be used with UUID= as a more robust way to name devices
# that works even if disks are added and removed. See fstab(5).
#
# <file system> <mount point>   <type>  <options>       <dump>  <pass>
# / was on /dev/sda1 during installation
UUID=36dd6a10-da30-4136-ad52-cdfd5e417708 /               ext4    errors=remount-ro 0       1
# /home was on /dev/sda6 during installation
UUID=d751c853-b78d-46f1-b154-5d9a651ce7c5 /home           ext4    defaults        0       2
# swap was on /dev/sda5 during installation
UUID=f76b3232-fae7-459c-86d2-a409d66cef6a none            swap    sw              0       0


Le partitionnement :
- / de 29,8 Gio
- swap de 7,5 Gio
- /home de 428,5 Gio
(https://lafibre.info/images/materiel/201507_smart_disque_dur_hs_3.png)
Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: jack le 23 juillet 2015 à 10:46:42
Je trouve que l'utilisation de smartmontool pour "prévoir" les pannes de disques est une méthode hasardeuse

J'ai ce genre de message sur plusieurs de mes machines :
CRIT - Reallocated sectors: 0, Powered on: 25859 hours, Spin retries: 0, Power cycles: 23, End-to-End errors: 0, Uncorrectable errors: 2(!!), Command timeouts: 4295032833(!!), Pending sectors: 0, UDMA CRC errors: 0Et ce depuis 71j, dixit la probe

De plus, et sur d'autres machines, j'ai nombre de valeurs qui sont en "Pre-fail" depuis .. des années

Bref, pour conclure, je ne trouve pas que smartmontool soit d'une quelconque utilité. Toutes mes machines de productions intégrent une notion de duplication de données en temps réel, d'une manière ou d'une autre, ce qui me permet d'user un disque jusqu'à la moelle sans vergogne
Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: vivien le 23 juillet 2015 à 11:06:02
De mon coté, je ne fais pas de raid, mais des sauvegardes, car je trouve le raid coûteux et on n'a aucune info sur les disques.

Il y a 10 ans, j'ai perdu un RAID 5 qui a eu 2 disques défectueux.

De plus au reboot d'un serveur en raid avec un disque défectueux, on va avoir un message d'alerte avec "appuyer sur F1 pour continuer" => le serveur ne redémarre plus après une simple mise-à-jour du noyau, obligation d'aller sur site.

2 disques SAS de 300 Go 10 000 tr/min en RADI 1 matériel :
# smartctl -a /dev/sda
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-57-generic] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor:               IBM
Product:              ServeRAID M5014
Revision:             2.12
User Capacity:        298 999 349 248 bytes [298 GB]
Logical block size:   512 bytes
Logical Unit id:      0x600605b004967df017687fca0e8cda98
Serial number:        0098da8c0eca7f6817f07d9604b00506
Device type:          disk
Local Time is:        Thu Jul 23 11:03:00 2015 CEST
SMART support is:     Unavailable - device lacks SMART capability.

=== START OF READ SMART DATA SECTION ===

Error Counter logging not supported

Device does not support Self Test logging

2 disques SAS de 73 Go 10 000 tr/min en RADI 1 matériel :
# smartctl -a /dev/sda
smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-87-generic] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

Vendor:               ServeRA
Product:              Drive 1         
Revision:             V1.0
User Capacity:        73 283 928 064 bytes [73,2 GB]
Logical block size:   512 bytes
scsiModePageOffset: response length too short, resp_len=4 offset=4 bd_len=0
>> Terminate command early due to bad response to IEC mode page
A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.

Du coté des pannes, j'ai vraiment l'impression que c'est à l’utilisation (read/write) qu'ils s’usent.

Les disques qui tournent des années mais avec presque aucune IO, je n'ai jamais de soucis.
Ceux qui sont fortement sollicités 24h/24 365j/an, tombent en panne régulièrement.
Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: jack le 23 juillet 2015 à 15:13:57
Pas de bol pour ce qui est de perdre deux disque d'un raid 5 dans un délai bref (m'enfin, c'est pareil que de perde le disque de production + le disque de sauvegarde dans un délai tout aussi bref, non ?)

(c'est clair que smartmontool ne sert à rien avec du raid hard; m'enfin, tu as des outils adaptés, en fonction de ton fournisseur de raid, pour superviser tout cela; on me susurre également que mdadm rocks  8))
Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: miky01 le 23 juillet 2015 à 16:22:28
Vivien, j'ai vu que tu as des disc SAS 73 Gb/10K 2.5' sur tes servers, j'en ai 5 de recup sur des serveurs decomisionné, pas la moindre idée de l'état, si ca peux te servir comme spare parts, je te les donne volontier, par contre avec ces disc tu peux avoir des soucis de firmwaire, j'ai vu pas mal d'incompatibilté entre différente mareque de server, qui accepte que leurs modèle spécifique.

J'ai aussi qques SATA2 500 Gb 3.5'' qui provienne de bay EMC, donc prévu pour utilisation intensive.

(http://s16.postimg.org/pa85wjeph/sas_disc.jpg)

C'est certain que utiliser un disc low cost de PC pour des acces 24/24 permanant, il pète rapidement, pas fait pour.
Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: vivien le 23 juillet 2015 à 18:19:31
Merci pour la proposition ne les jette pas.

Je suis fan de vieux matériel, et mon Compaq bi pentium III de collection a perdu son disque 18,2 Go 10 000 tr/min Ultra3 SCSI sur son RAID-5. 5 disques 10 00 tr/min Ultra3 SCSI dans le serveur : 2 x 9,1 Go en RAID 1 pour le système d'exploitation et 3 x 18,2 Go en RAID 5 pour les données. Si tu as des vieillerie comme ça il faut pas jeter. Le serveur ne sait pas gérer les disques IDE ou SATA : uniquement SCSI.

Sinon, je dois dire que j’apprécie Dell en constructeur de serveur, car pas de souci pour changer du matériel, au moins sur les modèles entrée de gamme.

Pour la durée de vie des disques dur, je ne suis pas persuadé qu'un disque por tombe moins en panne qu'un disque classique.
J'avais acheté un "Western Digital Caviar Black", le haut de gamme SATA qui coûte super cher => il est tombé en panne après 3 ans (mais avec la garantie de 5 ans pas de souci)
Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: BadMax le 23 juillet 2015 à 19:19:25
Je suis comme Vivien: j'ai arrêté de faire du RAID pour mes données principales et préfère tout gérer avec ZFS et des snapshots quotidiens exportés d'un disque à l'autre en plus d'une externe manuelle.

Par contre j'utilise du RAID5 pour 4 disques SCSI 36Go 10000rpm pour les images de mes VMs VirtualBox: les temps de réponse sont excellents !

Note sur les disques EMC: j'ai récupéré les memes, ils sont bruyants et ne supportent pas toutes les cartes mères du fait du delai au demarrage apres mise sous tension (le disque attend un ordre). Sinon c'est parfait en H24 :)
Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: miky01 le 23 juillet 2015 à 22:18:38
Je jette rien... je me fait assez engeuler pour ca  :)

J'ai fais mes cartons de disc, en wide scsi j'ai 2 Segate 18.2 Gb, un 10k et un 15k, plus un Quantum 18.2/10k
C'est les 3 seuls qu j'ai en 18.2 Gb, si ca peux te dépaner ?
Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: vivien le 23 juillet 2015 à 23:43:07
Oui, cela m'intéresse, le jour où l'on se verra (je vais essayer d'organiser une visite de datacenter sur Lyon)
Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: vivien le 06 septembre 2015 à 09:48:33
Je cherche à voir l’état de disques dur IBM SAS 73,4 Go qui sont à 15 000 tr/min et qui ont tourné à cette vitesse pendant 7 ans sans s’arrêter.

C'est normal de ne pas avoir de données Smart ?


C'est un serveur IBM System x3550 1u (Intel Xeon E5430 @2.66GHz) avec deux disques SAS Hot-Swap de 3,5 pouces.

La carte RAID intégrée a la carte mère du serveur :
02:00.0 RAID bus controller: Adaptec AAC-RAID (Rocket) (rev 02)
   Subsystem: IBM ServeRAID 8k/8k-l8
   Flags: bus master, fast devsel, latency 0, IRQ 17
   Memory at cce00000 (64-bit, non-prefetchable) [size=2M]
   Memory at cafe0000 (64-bit, prefetchable) [size=128K]
   I/O ports at 4000 [size=256]
   [virtual] Expansion ROM at cb000000 [disabled] [size=32K]
   Capabilities: <access denied>
   Kernel driver in use: aacraid


Données Smart sur /dev/sda : c'est le contrôleur RAID IBM ServeRAID 8k :
# smartctl -a /dev/sda
smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.19.0-26-generic] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor:               ServeRA
Product:              Drive 1
Revision:             V1.0
User Capacity:        73 283 928 064 bytes [73,2 GB]
Logical block size:   512 bytes
scsiModePageOffset: response length too short, resp_len=4 offset=4 bd_len=0
scsiModePageOffset: response length too short, resp_len=4 offset=4 bd_len=0
>> Terminate command early due to bad response to IEC mode page
A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.

Données Smart sur /dev/sg0 : c'est le lecteur de DVD IDE :
# smartctl -a /dev/sg0
smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.19.0-26-generic] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor:               MATSHITA
Product:              UJDA780 DVD/CDRW
Revision:             CA21
>> Terminate command early due to bad response to IEC mode page
A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.

Données Smart sur /dev/sg1 : c'est le contrôleur RAID IBM ServeRAID 8k :
# smartctl -a /dev/sg1
smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.19.0-26-generic] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor:               ServeRA
Product:              Drive 1
Revision:             V1.0
User Capacity:        73 283 928 064 bytes [73,2 GB]
Logical block size:   512 bytes
scsiModePageOffset: response length too short, resp_len=4 offset=4 bd_len=0
scsiModePageOffset: response length too short, resp_len=4 offset=4 bd_len=0
>> Terminate command early due to bad response to IEC mode page
A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.

Données Smart sur /dev/sg2 : c'est le premier disque dur SAS de 73,4 Go 15 000 tr/min :
Problème, il manque beaucoup d'informations...

# smartctl -a /dev/sg2
smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.19.0-26-generic] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor:               IBM-ESXS
Product:              ST373455SS
Revision:             BA26
User Capacity:        73 407 488 000 bytes [73,4 GB]
Logical block size:   512 bytes
Rotation Rate:        15015 rpm
Logical Unit id:      0x5000c5000a856087
Serial number:        3LQ3BSZD00009846R5C5
Device type:          disk
Transport protocol:   SAS (SPL-3)
Local Time is:        Sun Sep  6 09:39:45 2015 CEST
SMART support is:     Available - device has SMART capability.
SMART support is:     Enabled
Temperature Warning:  Enabled

=== START OF READ SMART DATA SECTION ===
SMART Health Status: OK

Current Drive Temperature:     32 C
Drive Trip Temperature:        68 C

^[[AElements in grown defect list: 0

Vendor (Seagate) cache information
  Blocks sent to initiator = 3284775082
  Blocks received from initiator = 1815987392
  Blocks read from cache and sent to initiator = 97355681
  Number of read and write commands whose size <= segment size = 687239190
  Number of read and write commands whose size > segment size = 0

Vendor (Seagate/Hitachi) factory information
  number of hours powered up = 58001,67
  number of minutes until next internal SMART test = 58

Error counter log:
           Errors Corrected by           Total   Correction     Gigabytes    Total
               ECC          rereads/    errors   algorithm      processed    uncorrected
           fast | delayed   rewrites  corrected  invocations   [10^9 bytes]  errors
read:   11131499        0         0  11131499   11131499        943,352           0
write:         0        0         0         0          0       5372,021           0
verify: 80016935        0         0  80016935   80016935      51316,364           0

Non-medium error count:        1

No self-tests have been logged

Données Smart sur /dev/sg3 : c'est le premier disque dur SAS de 73,4 Go 15 000 tr/min :
Problème, il manque beaucoup d'informations...

# smartctl -a /dev/sg3
smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.19.0-26-generic] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor:               IBM-ESXS
Product:              ST373455SS
Revision:             BA26
User Capacity:        73 407 488 000 bytes [73,4 GB]
Logical block size:   512 bytes
Rotation Rate:        15015 rpm
Logical Unit id:      0x5000c5000a855633
Serial number:        3LQ3BV8B00009846W113
Device type:          disk
Transport protocol:   SAS (SPL-3)
Local Time is:        Sun Sep  6 09:39:50 2015 CEST
SMART support is:     Available - device has SMART capability.
SMART support is:     Enabled
Temperature Warning:  Enabled

=== START OF READ SMART DATA SECTION ===
SMART Health Status: OK

Current Drive Temperature:     31 C
Drive Trip Temperature:        68 C

Elements in grown defect list: 0

Vendor (Seagate) cache information
  Blocks sent to initiator = 3205604436
  Blocks received from initiator = 1815975535
  Blocks read from cache and sent to initiator = 93893718
  Number of read and write commands whose size <= segment size = 686719180
  Number of read and write commands whose size > segment size = 0

Vendor (Seagate/Hitachi) factory information
  number of hours powered up = 58065,97
  number of minutes until next internal SMART test = 58

Error counter log:
           Errors Corrected by           Total   Correction     Gigabytes    Total
               ECC          rereads/    errors   algorithm      processed    uncorrected
           fast | delayed   rewrites  corrected  invocations   [10^9 bytes]  errors
read:   17692594        3         0  17692597   17692597        921,138           0
write:         0        0         0         0          0       5373,050           0
verify: 607888953        0         0  607888953   607888953      51306,641           0

Non-medium error count:       14

No self-tests have been logged

Les performances de ces vieux disques en RAID1 via la carte RAID intégrée :
(https://lafibre.info/images/materiel/200805_disque_dur_SAS_IBM-ESXS_System_x3550.png)

Documentation de 2006 : (cliquez sur les miniatures ci-dessous - les documents sont au format PDF)
(https://lafibre.info/images/materiel/200606_IBM_System_x3550_guide_utilisation.png) (https://lafibre.info/images/materiel/200606_IBM_System_x3550_guide_utilisation.pdf) (https://lafibre.info/images/materiel/200606_IBM_System_x3550_guide_installation.png) (https://lafibre.info/images/materiel/200606_IBM_System_x3550_guide_installation.pdf) (https://lafibre.info/images/materiel/200606_IBM_System_x3550_guide_maintenance.png) (https://lafibre.info/images/materiel/200606_IBM_System_x3550_guide_maintenance.pdf)

Documentation de 2008 : (cliquez sur la miniature ci-dessous - le document est au format PDF)
(https://lafibre.info/images/materiel/200803_IBM_System_x3550_guide_produit.png) (https://lafibre.info/images/materiel/200803_IBM_System_x3550_guide_produit.pdf)
Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: BadMax le 06 septembre 2015 à 10:08:11
C'est parce que toutes les données SMART ne sont pas obligatoires, seul l'état de santé global du disque l'est.

Pour comparaison, Fujitsu 73Go SCSI U320 10000rpm
root@nikita:~# smartctl -a /dev/sdc
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-54-generic] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor:               FUJITSU
Product:              MAP3735NP
Revision:             5605
User Capacity:        73 407 820 800 bytes [73,4 GB]
Logical block size:   512 bytes
Rotation Rate:        10025 rpm
Serial number:        UPG3P2C0083J
Device type:          disk
Transport protocol:   Parallel SCSI (SPI-4)
Local Time is:        Sun Sep  6 10:04:59 2015 CEST
SMART support is:     Available - device has SMART capability.
SMART support is:     Enabled
Temperature Warning:  Enabled

=== START OF READ SMART DATA SECTION ===
SMART Health Status: OK

Current Drive Temperature:     26 C
Drive Trip Temperature:        65 C

Manufactured in week 51 of year 2002
Specified cycle count over device lifetime:  10000
Accumulated start-stop cycles:  556
Elements in grown defect list: 0

Error counter log:
           Errors Corrected by           Total   Correction     Gigabytes    Total
               ECC          rereads/    errors   algorithm      processed    uncorrected
           fast | delayed   rewrites  corrected  invocations   [10^9 bytes]  errors
read:          0      241         0         0          0     176294,849           0
write:         0      123         0         0          0      71885,676           0
verify:        0        0         0         0          0          0,320           0

Non-medium error count:      732

SMART Self-test log
Num  Test              Status                 segment  LifeTime  LBA_first_err [SK ASC ASQ]
     Description                              number   (hours)
# 1  Background long   Completed                   -   45915                 - [-   -    -]
# 2  Background long   Completed                   -       0                 - [-   -    -]
# 3  Background short  Completed                   -       0                 - [-   -    -]
Long (extended) Self Test duration: 2191 seconds [36,5 minutes]

Hitachi 73Go U320 15k rpm
root@nikita:~# smartctl -a /dev/sdd
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-54-generic] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor:               HITACHI
Product:              HUS151473VL3600
Revision:             S3BA
User Capacity:        73 407 820 800 bytes [73,4 GB]
Logical block size:   512 bytes
Rotation Rate:        15000 rpm
Logical Unit id:      0x5000cca006d49d75
Serial number:        JCWGAVLK
Device type:          disk
Transport protocol:   Parallel SCSI (SPI-4)
Local Time is:        Sun Sep  6 10:06:33 2015 CEST
SMART support is:     Available - device has SMART capability.
SMART support is:     Enabled
Temperature Warning:  Enabled

=== START OF READ SMART DATA SECTION ===
SMART Health Status: OK

Current Drive Temperature:     33 C
Drive Trip Temperature:        85 C

Manufactured in week 20 of year 2007
Specified cycle count over device lifetime:  50000
Accumulated start-stop cycles:  960
Elements in grown defect list: 0

Vendor (Seagate) cache information
  Blocks sent to initiator = 706832565796864

Error counter log:
           Errors Corrected by           Total   Correction     Gigabytes    Total
               ECC          rereads/    errors   algorithm      processed    uncorrected
           fast | delayed   rewrites  corrected  invocations   [10^9 bytes]  errors
read:     106718    32835         0    106718         11       1896,920           0
write:     99816        0         0     99816          0        855,047           0
verify:     9262     2267         0      9262          0         20,358           0

Non-medium error count:        1

SMART Self-test log
Num  Test              Status                 segment  LifeTime  LBA_first_err [SK ASC ASQ]
     Description                              number   (hours)
# 1  Background long   Completed                   -    7232                 - [-   -    -]
Long (extended) Self Test duration: 1205 seconds [20,1 minutes]

Comme tu peux le voir, sur chacun j'ai effectué un auto-test long afin d'avoir un vrai bilan, tu devrais faire de même.
Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: vivien le 06 septembre 2015 à 11:13:20
Après un 'auto-test long :

/dev/sg2
# smartctl -a /dev/sg2
smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.19.0-26-generic] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor:               IBM-ESXS
Product:              ST373455SS
Revision:             BA26
User Capacity:        73 407 488 000 bytes [73,4 GB]
Logical block size:   512 bytes
Rotation Rate:        15015 rpm
Logical Unit id:      0x5000c5000a856087
Serial number:        3LQ3BSZD00009846R5C5
Device type:          disk
Transport protocol:   SAS (SPL-3)
Local Time is:        Sun Sep  6 11:09:59 2015 CEST
SMART support is:     Available - device has SMART capability.
SMART support is:     Enabled
Temperature Warning:  Enabled

=== START OF READ SMART DATA SECTION ===
SMART Health Status: OK

Current Drive Temperature:     33 C
Drive Trip Temperature:        68 C

Elements in grown defect list: 0

Vendor (Seagate) cache information
  Blocks sent to initiator = 3288230457
  Blocks received from initiator = 1816127472
  Blocks read from cache and sent to initiator = 97484929
  Number of read and write commands whose size <= segment size = 687246043
  Number of read and write commands whose size > segment size = 0

Vendor (Seagate/Hitachi) factory information
  number of hours powered up = 58002,15
  number of minutes until next internal SMART test = 39

Error counter log:
           Errors Corrected by           Total   Correction     Gigabytes    Total
               ECC          rereads/    errors   algorithm      processed    uncorrected
           fast | delayed   rewrites  corrected  invocations   [10^9 bytes]  errors
read:   11792497        0         0  11792497   11792497        944,215           0
write:         0        0         0         0          0       5372,093           0
verify: 80026932        0         0  80026932   80026932      51317,284           0

Non-medium error count:        1

SMART Self-test log
Num  Test              Status                 segment  LifeTime  LBA_first_err [SK ASC ASQ]
     Description                              number   (hours)
# 1  Background long   Completed                   -   58002                 - [-   -    -]

Long (extended) Self Test duration: 721 seconds [12,0 minutes]

/dev/sg3 :
# smartctl -a /dev/sg3
smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.19.0-26-generic] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor:               IBM-ESXS
Product:              ST373455SS
Revision:             BA26
User Capacity:        73 407 488 000 bytes [73,4 GB]
Logical block size:   512 bytes
Rotation Rate:        15015 rpm
Logical Unit id:      0x5000c5000a855633
Serial number:        3LQ3BV8B00009846W113
Device type:          disk
Transport protocol:   SAS (SPL-3)
Local Time is:        Sun Sep  6 11:12:22 2015 CEST
SMART support is:     Available - device has SMART capability.
SMART support is:     Enabled
Temperature Warning:  Enabled

=== START OF READ SMART DATA SECTION ===
SMART Health Status: OK

Current Drive Temperature:     32 C
Drive Trip Temperature:        68 C

Elements in grown defect list: 0

Vendor (Seagate) cache information
  Blocks sent to initiator = 3209416645
  Blocks received from initiator = 1816159359
  Blocks read from cache and sent to initiator = 94053268
  Number of read and write commands whose size <= segment size = 686726467
  Number of read and write commands whose size > segment size = 0

Vendor (Seagate/Hitachi) factory information
  number of hours powered up = 58066,50
  number of minutes until next internal SMART test = 37

Error counter log:
           Errors Corrected by           Total   Correction     Gigabytes    Total
               ECC          rereads/    errors   algorithm      processed    uncorrected
           fast | delayed   rewrites  corrected  invocations   [10^9 bytes]  errors
read:   18476429        3         0  18476432   18476432        922,152           0
write:         0        0         0         0          0       5373,144           0
verify: 607893947        0         0  607893947   607893947      51307,587           0

Non-medium error count:       14

SMART Self-test log
Num  Test              Status                 segment  LifeTime  LBA_first_err [SK ASC ASQ]
     Description                              number   (hours)
# 1  Background long   Completed                   -   58066                 - [-   -    -]

Long (extended) Self Test duration: 721 seconds [12,0 minutes]
Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: seb le 06 septembre 2015 à 13:45:32
C'est parce que toutes les données SMART ne sont pas obligatoires, seul l'état de santé global du disque l'est.
Ou parce que les disques sont branchés en direct sur le contrôleur RAID et que celui-ci n'implèmente pas (toutes) les ioctl nécessaires à SMART.
Le même problème se pose souvent avec des disques installés dans des boîtiers USB : le contrôleur USB/SATA ne remonte qu'une partie des infos normalement présentées par le disque (quand il en remonte !).
Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: BadMax le 06 septembre 2015 à 16:04:45
Je n'ai pas de controleur RAID, je suis en direct via une 39320 et j'ai les memes datas que vivien :)

Souvent le controleur RAID ne montre qu'un lecteur logique et les données SMART sont inaccessibles. Vivien a meme du bol que le sien permette d'y accèder.

En USB vers SATA c'est encore différent car tu utilises un bridge entre les 2 bus.