Auteur Sujet: Déterminer les pb d'un disque dur avec smartctl  (Lu 16706 fois)

0 Membres et 1 Invité sur ce sujet

vivien

  • Administrateur
  • *
  • Messages: 51 166
    • Bluesky LaFibre.info
Déterminer les pb d'un disque dur avec smartctl
« le: 18 juillet 2015 à 18:10:31 »
Déterminer les pb d'un disque dur avec smartctl

J'ai un disque dur d'un serveur, supervisé par Munin, qui me dit être en warning à cause d'une valeur en dehors de la plage autorisée "Note: This service is in WARNING state because one of the values reported is outside the allowed range. Please see further down for information about the ranges and the graph for the values."

J'ai un peu de mal a comprendre quelle est la valeur qui est hors de la plage...

Voici le graphe de Munin :


J'ai démarré sur une clé USB Ubuntu pour avoir les données SMART avec une interface graphique et il me dit que tout est normal :


vivien

  • Administrateur
  • *
  • Messages: 51 166
    • Bluesky LaFibre.info
Déterminer les pb d'un disque dur avec smartctl
« Réponse #1 le: 18 juillet 2015 à 18:17:31 »
Voici le retour de smartctl -a :
# smartctl -a /dev/sda
smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.19.0-22-generic] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda ES.2
Device Model:     ST3500320NS
Serial Number:    9QMCNF1W
LU WWN Device Id: 5 000c50 01fea7d58
Add. Product Id:  DELL(tm)
Firmware Version: MA0D
User Capacity:    500 107 862 016 bytes [500 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    7200 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS T13/1699-D revision 4
SATA Version is:  SATA 2.6, 3.0 Gb/s
Local Time is:    Sat Jul 18 17:54:19 2015 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (  625) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: (   1) minutes.
Extended self-test routine
recommended polling time: ( 110) minutes.
Conveyance self-test routine
recommended polling time: (   2) minutes.
SCT capabilities:        (0x103d) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   080   054   044    Pre-fail  Always       -       116418904
  3 Spin_Up_Time            0x0003   099   099   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       38
  5 Reallocated_Sector_Ct   0x0033   091   091   036    Pre-fail  Always       -       188
  7 Seek_Error_Rate         0x000f   080   060   030    Pre-fail  Always       -       22023485619
  9 Power_On_Hours          0x0032   055   055   000    Old_age   Always       -       40045
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   037   020    Old_age   Always       -       38
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   086   086   000    Old_age   Always       -       14
188 Command_Timeout         0x0032   100   099   000    Old_age   Always       -       65
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   073   060   045    Old_age   Always       -       27 (Min/Max 26/27)
194 Temperature_Celsius     0x0022   027   040   000    Old_age   Always       -       27 (0 18 0 0 0)
195 Hardware_ECC_Recovered  0x001a   044   029   000    Old_age   Always       -       116418904
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       20
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       20
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0

SMART Error Log Version: 1
ATA Error Count: 95 (device log contains only the most recent five errors)
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 95 occurred at disk power-on lifetime: 38179 hours (1590 days + 19 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 00 ff ff ff 4f 00   8d+07:34:07.080  READ FPDMA QUEUED
  60 00 00 ff ff ff 4f 00   8d+07:34:07.079  READ FPDMA QUEUED
  60 00 00 ff ff ff 4f 00   8d+07:34:06.974  READ FPDMA QUEUED
  60 00 00 ff ff ff 4f 00   8d+07:34:06.973  READ FPDMA QUEUED
  60 00 00 ff ff ff 4f 00   8d+07:34:06.970  READ FPDMA QUEUED

Error 94 occurred at disk power-on lifetime: 38156 hours (1589 days + 20 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 00 ff ff ff 4f 00   7d+09:05:32.647  READ FPDMA QUEUED
  ea 00 00 00 00 00 a0 00   7d+09:05:32.635  FLUSH CACHE EXT
  60 00 00 ff ff ff 4f 00   7d+09:05:32.615  READ FPDMA QUEUED
  61 00 08 ff ff ff 4f 00   7d+09:05:32.615  WRITE FPDMA QUEUED
  ea 00 00 00 00 00 a0 00   7d+09:05:32.542  FLUSH CACHE EXT

Error 93 occurred at disk power-on lifetime: 38156 hours (1589 days + 20 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: WP at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  61 00 e0 38 6e c5 41 00   7d+08:45:28.971  WRITE FPDMA QUEUED
  60 00 08 ff ff ff 4f 00   7d+08:45:28.968  READ FPDMA QUEUED
  61 00 68 ff ff ff 4f 00   7d+08:45:28.968  WRITE FPDMA QUEUED
  27 00 00 00 00 00 e0 00   7d+08:45:28.937  READ NATIVE MAX ADDRESS EXT [OBS-ACS-3]
  ec 00 00 00 00 00 a0 00   7d+08:45:28.935  IDENTIFY DEVICE

Error 92 occurred at disk power-on lifetime: 38156 hours (1589 days + 20 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 08 ff ff ff 4f 00   7d+08:45:25.290  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00   7d+08:45:25.285  READ FPDMA QUEUED
  61 00 20 40 15 45 43 00   7d+08:45:25.285  WRITE FPDMA QUEUED
  61 00 28 80 11 45 43 00   7d+08:45:25.284  WRITE FPDMA QUEUED
  61 00 20 60 ff 44 43 00   7d+08:45:25.284  WRITE FPDMA QUEUED

Error 91 occurred at disk power-on lifetime: 38156 hours (1589 days + 20 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 00 ff ff ff 4f 00   7d+08:45:20.387  READ FPDMA QUEUED
  60 00 00 ff ff ff 4f 00   7d+08:45:20.385  READ FPDMA QUEUED
  60 00 00 ff ff ff 4f 00   7d+08:45:20.383  READ FPDMA QUEUED
  ea 00 00 00 00 00 a0 00   7d+08:45:20.368  FLUSH CACHE EXT
  60 00 00 ff ff ff 4f 00   7d+08:45:20.367  READ FPDMA QUEUED

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%         2         -
# 2  Short offline       Completed without error       00%         0         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Je pense par contre que le disque dur a quelques soucis, quand je vois ce type de messages :

BadMax

  • Client Free adsl
  • Expert
  • *
  • Messages: 3 479
  • Malissard (26)
Déterminer les pb d'un disque dur avec smartctl
« Réponse #2 le: 18 juillet 2015 à 20:27:43 »
La commande smartctl indique des erreurs dans les logs du disque. Essaye:

# smartctl -t long /dev/sda

Puis utilise l'option '-a' pour verifier l'avancement du test.

BadMax

  • Client Free adsl
  • Expert
  • *
  • Messages: 3 479
  • Malissard (26)
Déterminer les pb d'un disque dur avec smartctl
« Réponse #3 le: 18 juillet 2015 à 20:31:03 »
Tu pourrais nous donner le contenu de /etc/fstab pour /dev/sda2 ?

mirtouf

  • Abonné Bbox fibre
  • *
  • Messages: 1 375
  • Chelles (77)
    • L'antre de la bête
Déterminer les pb d'un disque dur avec smartctl
« Réponse #4 le: 19 juillet 2015 à 11:44:16 »
Pour le futur, prévoir des tests smartctl de façon régulière est plutôt une bonne chose ; smartd.conf :
/dev/sda -a -o on -S on -s (S/../.././01|L/../../1/03) -m mail@ndd -M exec /usr/share/smartmontools/smartd-runner
/dev/sdb -a -o on -S on -s (S/../.././02|L/../../2/03) -m mail@ndd -M exec /usr/share/smartmontools/smartd-runner

mais ça sent quand même pas bon, une sauvegarde s'impose au plus vite.  :-\

Nh3xus

  • Réseau Deux Sarres (57)
  • Abonné MilkyWan
  • *
  • Messages: 3 315
  • Sarrebourg (57)
Déterminer les pb d'un disque dur avec smartctl
« Réponse #5 le: 19 juillet 2015 à 13:10:07 »
Quand je vois :

Citer
  5 Reallocated_Sector_Ct   0x0033   091   091   036    Pre-fail  Always       -       188

et

Citer
Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       20

ça donne déjà une bonne idée de la mauvaise santé du disque.

Idéalement, ces valeurs doivent être égales à 0 sur un bon disque.

vivien

  • Administrateur
  • *
  • Messages: 51 166
    • Bluesky LaFibre.info
Déterminer les pb d'un disque dur avec smartctl
« Réponse #6 le: 23 juillet 2015 à 10:32:14 »
Voici smartctl après avoir lancé deux tests long (plusieurs heures chacun)

Il y a donc bien des erreurs de lecture dans les 20% à la fin du disque :
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       20%     40054         844622245
# 2  Extended offline    Completed: read failure       20%     40048         844630767
# 3  Extended offline    Completed without error       00%         2         -
# 4  Short offline       Completed without error       00%         0         -


Par contre cela n'a pas incrèmenté les erreurs détaillées, qui sont toujours à "Error 95 occurred at disk power-on lifetime: 38179 hours (1590 days + 19 hours)"
# smartctl -a /dev/sda
smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.19.0-22-generic] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda ES.2
Device Model:     ST3500320NS
Serial Number:    9QMCNF1W
LU WWN Device Id: 5 000c50 01fea7d58
Add. Product Id:  DELL(tm)
Firmware Version: MA0D
User Capacity:    500 107 862 016 bytes [500 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    7200 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS T13/1699-D revision 4
SATA Version is:  SATA 2.6, 3.0 Gb/s
Local Time is:    Thu Jul 23 10:26:13 2015 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status:      ( 114) The previous self-test completed having
the read element of the test failed.
Total time to complete Offline
data collection: (  625) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: (   1) minutes.
Extended self-test routine
recommended polling time: ( 110) minutes.
Conveyance self-test routine
recommended polling time: (   2) minutes.
SCT capabilities:        (0x103d) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   074   054   044    Pre-fail  Always       -       239281957
  3 Spin_Up_Time            0x0003   099   099   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       40
  5 Reallocated_Sector_Ct   0x0033   091   091   036    Pre-fail  Always       -       188
  7 Seek_Error_Rate         0x000f   080   060   030    Pre-fail  Always       -       22023540966
  9 Power_On_Hours          0x0032   055   055   000    Old_age   Always       -       40064
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   037   020    Old_age   Always       -       40
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   080   080   000    Old_age   Always       -       20
188 Command_Timeout         0x0032   100   099   000    Old_age   Always       -       65
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   071   060   045    Old_age   Always       -       29 (Min/Max 26/35)
194 Temperature_Celsius     0x0022   029   040   000    Old_age   Always       -       29 (0 18 0 0 0)
195 Hardware_ECC_Recovered  0x001a   040   029   000    Old_age   Always       -       239281957
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       540
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       540
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0

SMART Error Log Version: 1
ATA Error Count: 95 (device log contains only the most recent five errors)
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 95 occurred at disk power-on lifetime: 38179 hours (1590 days + 19 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 00 ff ff ff 4f 00   8d+07:34:07.080  READ FPDMA QUEUED
  60 00 00 ff ff ff 4f 00   8d+07:34:07.079  READ FPDMA QUEUED
  60 00 00 ff ff ff 4f 00   8d+07:34:06.974  READ FPDMA QUEUED
  60 00 00 ff ff ff 4f 00   8d+07:34:06.973  READ FPDMA QUEUED
  60 00 00 ff ff ff 4f 00   8d+07:34:06.970  READ FPDMA QUEUED

Error 94 occurred at disk power-on lifetime: 38156 hours (1589 days + 20 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 00 ff ff ff 4f 00   7d+09:05:32.647  READ FPDMA QUEUED
  ea 00 00 00 00 00 a0 00   7d+09:05:32.635  FLUSH CACHE EXT
  60 00 00 ff ff ff 4f 00   7d+09:05:32.615  READ FPDMA QUEUED
  61 00 08 ff ff ff 4f 00   7d+09:05:32.615  WRITE FPDMA QUEUED
  ea 00 00 00 00 00 a0 00   7d+09:05:32.542  FLUSH CACHE EXT

Error 93 occurred at disk power-on lifetime: 38156 hours (1589 days + 20 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: WP at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  61 00 e0 38 6e c5 41 00   7d+08:45:28.971  WRITE FPDMA QUEUED
  60 00 08 ff ff ff 4f 00   7d+08:45:28.968  READ FPDMA QUEUED
  61 00 68 ff ff ff 4f 00   7d+08:45:28.968  WRITE FPDMA QUEUED
  27 00 00 00 00 00 e0 00   7d+08:45:28.937  READ NATIVE MAX ADDRESS EXT [OBS-ACS-3]
  ec 00 00 00 00 00 a0 00   7d+08:45:28.935  IDENTIFY DEVICE

Error 92 occurred at disk power-on lifetime: 38156 hours (1589 days + 20 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 08 ff ff ff 4f 00   7d+08:45:25.290  READ FPDMA QUEUED
  60 00 08 ff ff ff 4f 00   7d+08:45:25.285  READ FPDMA QUEUED
  61 00 20 40 15 45 43 00   7d+08:45:25.285  WRITE FPDMA QUEUED
  61 00 28 80 11 45 43 00   7d+08:45:25.284  WRITE FPDMA QUEUED
  61 00 20 60 ff 44 43 00   7d+08:45:25.284  WRITE FPDMA QUEUED

Error 91 occurred at disk power-on lifetime: 38156 hours (1589 days + 20 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 ff ff ff 0f  Error: UNC at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  60 00 00 ff ff ff 4f 00   7d+08:45:20.387  READ FPDMA QUEUED
  60 00 00 ff ff ff 4f 00   7d+08:45:20.385  READ FPDMA QUEUED
  60 00 00 ff ff ff 4f 00   7d+08:45:20.383  READ FPDMA QUEUED
  ea 00 00 00 00 00 a0 00   7d+08:45:20.368  FLUSH CACHE EXT
  60 00 00 ff ff ff 4f 00   7d+08:45:20.367  READ FPDMA QUEUED

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       20%     40054         844622245
# 2  Extended offline    Completed: read failure       20%     40048         844630767
# 3  Extended offline    Completed without error       00%         2         -
# 4  Short offline       Completed without error       00%         0         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay

A noter que avant de lancer les tests, j'ai récupéré avec sucés toutes les données du disque.

Pour 90% des données, j'avais un checksum (SHA256) et j'ai été étonné de n'avoir aucune erreur de checksum.

vivien

  • Administrateur
  • *
  • Messages: 51 166
    • Bluesky LaFibre.info
Déterminer les pb d'un disque dur avec smartctl
« Réponse #7 le: 23 juillet 2015 à 10:33:15 »
Tu pourrais nous donner le contenu de /etc/fstab pour /dev/sda2 ?

C'est ça que tu souhaites ?

# cat /etc/fstab
# /etc/fstab: static file system information.
#
# Use 'blkid' to print the universally unique identifier for a
# device; this may be used with UUID= as a more robust way to name devices
# that works even if disks are added and removed. See fstab(5).
#
# <file system> <mount point>   <type>  <options>       <dump>  <pass>
# / was on /dev/sda1 during installation
UUID=36dd6a10-da30-4136-ad52-cdfd5e417708 /               ext4    errors=remount-ro 0       1
# /home was on /dev/sda6 during installation
UUID=d751c853-b78d-46f1-b154-5d9a651ce7c5 /home           ext4    defaults        0       2
# swap was on /dev/sda5 during installation
UUID=f76b3232-fae7-459c-86d2-a409d66cef6a none            swap    sw              0       0


Le partitionnement :
- / de 29,8 Gio
- swap de 7,5 Gio
- /home de 428,5 Gio

jack

  • Professionnel des télécoms
  • *
  • Messages: 1 602
  • La Madeleine (59)
Déterminer les pb d'un disque dur avec smartctl
« Réponse #8 le: 23 juillet 2015 à 10:46:42 »
Je trouve que l'utilisation de smartmontool pour "prévoir" les pannes de disques est une méthode hasardeuse

J'ai ce genre de message sur plusieurs de mes machines :
CRIT - Reallocated sectors: 0, Powered on: 25859 hours, Spin retries: 0, Power cycles: 23, End-to-End errors: 0, Uncorrectable errors: 2(!!), Command timeouts: 4295032833(!!), Pending sectors: 0, UDMA CRC errors: 0Et ce depuis 71j, dixit la probe

De plus, et sur d'autres machines, j'ai nombre de valeurs qui sont en "Pre-fail" depuis .. des années

Bref, pour conclure, je ne trouve pas que smartmontool soit d'une quelconque utilité. Toutes mes machines de productions intégrent une notion de duplication de données en temps réel, d'une manière ou d'une autre, ce qui me permet d'user un disque jusqu'à la moelle sans vergogne

vivien

  • Administrateur
  • *
  • Messages: 51 166
    • Bluesky LaFibre.info
Déterminer les pb d'un disque dur avec smartctl
« Réponse #9 le: 23 juillet 2015 à 11:06:02 »
De mon coté, je ne fais pas de raid, mais des sauvegardes, car je trouve le raid coûteux et on n'a aucune info sur les disques.

Il y a 10 ans, j'ai perdu un RAID 5 qui a eu 2 disques défectueux.

De plus au reboot d'un serveur en raid avec un disque défectueux, on va avoir un message d'alerte avec "appuyer sur F1 pour continuer" => le serveur ne redémarre plus après une simple mise-à-jour du noyau, obligation d'aller sur site.

2 disques SAS de 300 Go 10 000 tr/min en RADI 1 matériel :
# smartctl -a /dev/sda
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-57-generic] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor:               IBM
Product:              ServeRAID M5014
Revision:             2.12
User Capacity:        298 999 349 248 bytes [298 GB]
Logical block size:   512 bytes
Logical Unit id:      0x600605b004967df017687fca0e8cda98
Serial number:        0098da8c0eca7f6817f07d9604b00506
Device type:          disk
Local Time is:        Thu Jul 23 11:03:00 2015 CEST
SMART support is:     Unavailable - device lacks SMART capability.

=== START OF READ SMART DATA SECTION ===

Error Counter logging not supported

Device does not support Self Test logging

2 disques SAS de 73 Go 10 000 tr/min en RADI 1 matériel :
# smartctl -a /dev/sda
smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-87-generic] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

Vendor:               ServeRA
Product:              Drive 1         
Revision:             V1.0
User Capacity:        73 283 928 064 bytes [73,2 GB]
Logical block size:   512 bytes
scsiModePageOffset: response length too short, resp_len=4 offset=4 bd_len=0
>> Terminate command early due to bad response to IEC mode page
A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.

Du coté des pannes, j'ai vraiment l'impression que c'est à l’utilisation (read/write) qu'ils s’usent.

Les disques qui tournent des années mais avec presque aucune IO, je n'ai jamais de soucis.
Ceux qui sont fortement sollicités 24h/24 365j/an, tombent en panne régulièrement.

jack

  • Professionnel des télécoms
  • *
  • Messages: 1 602
  • La Madeleine (59)
Déterminer les pb d'un disque dur avec smartctl
« Réponse #10 le: 23 juillet 2015 à 15:13:57 »
Pas de bol pour ce qui est de perdre deux disque d'un raid 5 dans un délai bref (m'enfin, c'est pareil que de perde le disque de production + le disque de sauvegarde dans un délai tout aussi bref, non ?)

(c'est clair que smartmontool ne sert à rien avec du raid hard; m'enfin, tu as des outils adaptés, en fonction de ton fournisseur de raid, pour superviser tout cela; on me susurre également que mdadm rocks  8))

miky01

  • Expert. Réseau RESO-LIAin (01)
  • Abonné K-Net
  • *
  • Messages: 3 787
  • Farges (01)
Déterminer les pb d'un disque dur avec smartctl
« Réponse #11 le: 23 juillet 2015 à 16:22:28 »
Vivien, j'ai vu que tu as des disc SAS 73 Gb/10K 2.5' sur tes servers, j'en ai 5 de recup sur des serveurs decomisionné, pas la moindre idée de l'état, si ca peux te servir comme spare parts, je te les donne volontier, par contre avec ces disc tu peux avoir des soucis de firmwaire, j'ai vu pas mal d'incompatibilté entre différente mareque de server, qui accepte que leurs modèle spécifique.

J'ai aussi qques SATA2 500 Gb 3.5'' qui provienne de bay EMC, donc prévu pour utilisation intensive.



C'est certain que utiliser un disc low cost de PC pour des acces 24/24 permanant, il pète rapidement, pas fait pour.