La Fibre

Datacenter et équipements réseaux => Équipements réseaux => NAS, serveurs et micro-serveurs => Discussion démarrée par: vivien le 18 juillet 2015 à 18:10:31

Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: vivien le 18 juillet 2015 à 18:10:31: Déterminer les pb d'un disque dur avec smartctl

J'ai un disque dur d'un serveur, supervisé par Munin, qui me dit être en warning à cause d'une valeur en dehors de la plage autorisée "Note: This service is in WARNING state because one of the values reported is outside the allowed range. Please see further down for information about the ranges and the graph for the values."

J'ai un peu de mal a comprendre quelle est la valeur qui est hors de la plage...

Voici le graphe de Munin :
(https://lafibre.info/images/materiel/201507_smart_disque_dur_hs_1.png)

J'ai démarré sur une clé USB Ubuntu pour avoir les données SMART avec une interface graphique et il me dit que tout est normal :
(https://lafibre.info/images/materiel/201507_smart_disque_dur_hs_2.png)
Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: vivien le 18 juillet 2015 à 18:17:31: Voici le retour de smartctl -a :
Code: [Sélectionner]
# smartctl -a /dev/sda smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.19.0-22-generic] (local build) Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org === START OF INFORMATION SECTION === Model Family: Seagate Barracuda ES.2 Device Model: ST3500320NS Serial Number: 9QMCNF1W LU WWN Device Id: 5 000c50 01fea7d58 Add. Product Id: DELL(tm) Firmware Version: MA0D User Capacity: 500 107 862 016 bytes [500 GB] Sector Size: 512 bytes logical/physical Rotation Rate: 7200 rpm Device is: In smartctl database [for details use: -P show] ATA Version is: ATA8-ACS T13/1699-D revision 4 SATA Version is: SATA 2.6, 3.0 Gb/s Local Time is: Sat Jul 18 17:54:19 2015 CEST SMART support is: Available - device has SMART capability. SMART support is: Enabled === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED General SMART Values: Offline data collection status: (0x82) Offline data collection activity was completed without error. Auto Offline Data Collection: Enabled. Self-test execution status: ( 0) The previous self-test routine completed without error or no self-test has ever been run. Total time to complete Offline data collection: ( 625) seconds. Offline data collection capabilities: (0x7b) SMART execute Offline immediate. Auto Offline data collection on/off support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. Conveyance Self-test supported. Selective Self-test supported. SMART capabilities: (0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability: (0x01) Error logging supported. General Purpose Logging supported. Short self-test routine recommended polling time: ( 1) minutes. Extended self-test routine recommended polling time: ( 110) minutes. Conveyance self-test routine recommended polling time: ( 2) minutes. SCT capabilities: (0x103d) SCT Status supported. SCT Error Recovery Control supported. SCT Feature Control supported. SCT Data Table supported. SMART Attributes Data Structure revision number: 10 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 080 054 044 Pre-fail Always - 116418904 3 Spin_Up_Time 0x0003 099 099 000 Pre-fail Always - 0 4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 38 5 Reallocated_Sector_Ct 0x0033 091 091 036 Pre-fail Always - 188 7 Seek_Error_Rate 0x000f 080 060 030 Pre-fail Always - 22023485619 9 Power_On_Hours 0x0032 055 055 000 Old_age Always - 40045 10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 100 037 020 Old_age Always - 38 184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0 187 Reported_Uncorrect 0x0032 086 086 000 Old_age Always - 14 188 Command_Timeout 0x0032 100 099 000 Old_age Always - 65 189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0 190 Airflow_Temperature_Cel 0x0022 073 060 045 Old_age Always - 27 (Min/Max 26/27) 194 Temperature_Celsius 0x0022 027 040 000 Old_age Always - 27 (0 18 0 0 0) 195 Hardware_ECC_Recovered 0x001a 044 029 000 Old_age Always - 116418904 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 20 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 20 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0 SMART Error Log Version: 1 ATA Error Count: 95 (device log contains only the most recent five errors) CR = Command Register [HEX] FR = Features Register [HEX] SC = Sector Count Register [HEX] SN = Sector Number Register [HEX] CL = Cylinder Low Register [HEX] CH = Cylinder High Register [HEX] DH = Device/Head Register [HEX] DC = Device Command Register [HEX] ER = Error register [HEX] ST = Status register [HEX] Powered_Up_Time is measured from power on, and printed as DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes, SS=sec, and sss=millisec. It "wraps" after 49.710 days. Error 95 occurred at disk power-on lifetime: 38179 hours (1590 days + 19 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 00 ff ff ff 0f Error: UNC at LBA = 0x0fffffff = 268435455 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- 60 00 00 ff ff ff 4f 00 8d+07:34:07.080 READ FPDMA QUEUED 60 00 00 ff ff ff 4f 00 8d+07:34:07.079 READ FPDMA QUEUED 60 00 00 ff ff ff 4f 00 8d+07:34:06.974 READ FPDMA QUEUED 60 00 00 ff ff ff 4f 00 8d+07:34:06.973 READ FPDMA QUEUED 60 00 00 ff ff ff 4f 00 8d+07:34:06.970 READ FPDMA QUEUED Error 94 occurred at disk power-on lifetime: 38156 hours (1589 days + 20 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 00 ff ff ff 0f Error: UNC at LBA = 0x0fffffff = 268435455 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- 60 00 00 ff ff ff 4f 00 7d+09:05:32.647 READ FPDMA QUEUED ea 00 00 00 00 00 a0 00 7d+09:05:32.635 FLUSH CACHE EXT 60 00 00 ff ff ff 4f 00 7d+09:05:32.615 READ FPDMA QUEUED 61 00 08 ff ff ff 4f 00 7d+09:05:32.615 WRITE FPDMA QUEUED ea 00 00 00 00 00 a0 00 7d+09:05:32.542 FLUSH CACHE EXT Error 93 occurred at disk power-on lifetime: 38156 hours (1589 days + 20 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 00 ff ff ff 0f Error: WP at LBA = 0x0fffffff = 268435455 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- 61 00 e0 38 6e c5 41 00 7d+08:45:28.971 WRITE FPDMA QUEUED 60 00 08 ff ff ff 4f 00 7d+08:45:28.968 READ FPDMA QUEUED 61 00 68 ff ff ff 4f 00 7d+08:45:28.968 WRITE FPDMA QUEUED 27 00 00 00 00 00 e0 00 7d+08:45:28.937 READ NATIVE MAX ADDRESS EXT [OBS-ACS-3] ec 00 00 00 00 00 a0 00 7d+08:45:28.935 IDENTIFY DEVICE Error 92 occurred at disk power-on lifetime: 38156 hours (1589 days + 20 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 00 ff ff ff 0f Error: UNC at LBA = 0x0fffffff = 268435455 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- 60 00 08 ff ff ff 4f 00 7d+08:45:25.290 READ FPDMA QUEUED 60 00 08 ff ff ff 4f 00 7d+08:45:25.285 READ FPDMA QUEUED 61 00 20 40 15 45 43 00 7d+08:45:25.285 WRITE FPDMA QUEUED 61 00 28 80 11 45 43 00 7d+08:45:25.284 WRITE FPDMA QUEUED 61 00 20 60 ff 44 43 00 7d+08:45:25.284 WRITE FPDMA QUEUED Error 91 occurred at disk power-on lifetime: 38156 hours (1589 days + 20 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 00 ff ff ff 0f Error: UNC at LBA = 0x0fffffff = 268435455 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- 60 00 00 ff ff ff 4f 00 7d+08:45:20.387 READ FPDMA QUEUED 60 00 00 ff ff ff 4f 00 7d+08:45:20.385 READ FPDMA QUEUED 60 00 00 ff ff ff 4f 00 7d+08:45:20.383 READ FPDMA QUEUED ea 00 00 00 00 00 a0 00 7d+08:45:20.368 FLUSH CACHE EXT 60 00 00 ff ff ff 4f 00 7d+08:45:20.367 READ FPDMA QUEUED SMART Self-test log structure revision number 1 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Extended offline Completed without error 00% 2 - # 2 Short offline Completed without error 00% 0 - SMART Selective self-test log data structure revision number 1 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS 1 0 0 Not_testing 2 0 0 Not_testing 3 0 0 Not_testing 4 0 0 Not_testing 5 0 0 Not_testing Selective self-test flags (0x0): After scanning selected spans, do NOT read-scan remainder of disk. If Selective self-test is pending on power-up, resume after 0 minute delay.
Je pense par contre que le disque dur a quelques soucis, quand je vois ce type de messages :
(https://lafibre.info/images/materiel/201507_smart_disque_dur_hs_1.jpg)
Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: BadMax le 18 juillet 2015 à 20:27:43: La commande smartctl indique des erreurs dans les logs du disque. Essaye:

# smartctl -t long /dev/sda

Puis utilise l'option '-a' pour verifier l'avancement du test.
Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: BadMax le 18 juillet 2015 à 20:31:03: Tu pourrais nous donner le contenu de /etc/fstab pour /dev/sda2 ?
Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: mirtouf le 19 juillet 2015 à 11:44:16: Pour le futur, prévoir des tests smartctl de façon régulière est plutôt une bonne chose ; smartd.conf :
Code: [Sélectionner]
/dev/sda -a -o on -S on -s (S/../.././01|L/../../1/03) -m mail@ndd -M exec /usr/share/smartmontools/smartd-runner /dev/sdb -a -o on -S on -s (S/../.././02|L/../../2/03) -m mail@ndd -M exec /usr/share/smartmontools/smartd-runner
mais ça sent quand même pas bon, une sauvegarde s'impose au plus vite. :-\
Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: Nh3xus le 19 juillet 2015 à 13:10:07: Quand je vois :

Citer
5 Reallocated_Sector_Ct 0x0033 091 091 036 Pre-fail Always - 188

et

Citer
Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 20

ça donne déjà une bonne idée de la mauvaise santé du disque.

Idéalement, ces valeurs doivent être égales à 0 sur un bon disque.
Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: vivien le 23 juillet 2015 à 10:32:14: Voici smartctl après avoir lancé deux tests long (plusieurs heures chacun)

Il y a donc bien des erreurs de lecture dans les 20% à la fin du disque :
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Extended offline Completed: read failure 20% 40054 844622245 # 2 Extended offline Completed: read failure 20% 40048 844630767 # 3 Extended offline Completed without error 00% 2 - # 4 Short offline Completed without error 00% 0 -

Par contre cela n'a pas incrèmenté les erreurs détaillées, qui sont toujours à "Error 95 occurred at disk power-on lifetime: 38179 hours (1590 days + 19 hours)"
Code: [Sélectionner]
# smartctl -a /dev/sda smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.19.0-22-generic] (local build) Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org === START OF INFORMATION SECTION === Model Family: Seagate Barracuda ES.2 Device Model: ST3500320NS Serial Number: 9QMCNF1W LU WWN Device Id: 5 000c50 01fea7d58 Add. Product Id: DELL(tm) Firmware Version: MA0D User Capacity: 500 107 862 016 bytes [500 GB] Sector Size: 512 bytes logical/physical Rotation Rate: 7200 rpm Device is: In smartctl database [for details use: -P show] ATA Version is: ATA8-ACS T13/1699-D revision 4 SATA Version is: SATA 2.6, 3.0 Gb/s Local Time is: Thu Jul 23 10:26:13 2015 CEST SMART support is: Available - device has SMART capability. SMART support is: Enabled === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED General SMART Values: Offline data collection status: (0x82) Offline data collection activity was completed without error. Auto Offline Data Collection: Enabled. Self-test execution status: ( 114) The previous self-test completed having the read element of the test failed. Total time to complete Offline data collection: ( 625) seconds. Offline data collection capabilities: (0x7b) SMART execute Offline immediate. Auto Offline data collection on/off support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. Conveyance Self-test supported. Selective Self-test supported. SMART capabilities: (0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability: (0x01) Error logging supported. General Purpose Logging supported. Short self-test routine recommended polling time: ( 1) minutes. Extended self-test routine recommended polling time: ( 110) minutes. Conveyance self-test routine recommended polling time: ( 2) minutes. SCT capabilities: (0x103d) SCT Status supported. SCT Error Recovery Control supported. SCT Feature Control supported. SCT Data Table supported. SMART Attributes Data Structure revision number: 10 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 074 054 044 Pre-fail Always - 239281957 3 Spin_Up_Time 0x0003 099 099 000 Pre-fail Always - 0 4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 40 5 Reallocated_Sector_Ct 0x0033 091 091 036 Pre-fail Always - 188 7 Seek_Error_Rate 0x000f 080 060 030 Pre-fail Always - 22023540966 9 Power_On_Hours 0x0032 055 055 000 Old_age Always - 40064 10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 100 037 020 Old_age Always - 40 184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0 187 Reported_Uncorrect 0x0032 080 080 000 Old_age Always - 20 188 Command_Timeout 0x0032 100 099 000 Old_age Always - 65 189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0 190 Airflow_Temperature_Cel 0x0022 071 060 045 Old_age Always - 29 (Min/Max 26/35) 194 Temperature_Celsius 0x0022 029 040 000 Old_age Always - 29 (0 18 0 0 0) 195 Hardware_ECC_Recovered 0x001a 040 029 000 Old_age Always - 239281957 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 540 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 540 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0 SMART Error Log Version: 1 ATA Error Count: 95 (device log contains only the most recent five errors) CR = Command Register [HEX] FR = Features Register [HEX] SC = Sector Count Register [HEX] SN = Sector Number Register [HEX] CL = Cylinder Low Register [HEX] CH = Cylinder High Register [HEX] DH = Device/Head Register [HEX] DC = Device Command Register [HEX] ER = Error register [HEX] ST = Status register [HEX] Powered_Up_Time is measured from power on, and printed as DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes, SS=sec, and sss=millisec. It "wraps" after 49.710 days. Error 95 occurred at disk power-on lifetime: 38179 hours (1590 days + 19 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 00 ff ff ff 0f Error: UNC at LBA = 0x0fffffff = 268435455 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- 60 00 00 ff ff ff 4f 00 8d+07:34:07.080 READ FPDMA QUEUED 60 00 00 ff ff ff 4f 00 8d+07:34:07.079 READ FPDMA QUEUED 60 00 00 ff ff ff 4f 00 8d+07:34:06.974 READ FPDMA QUEUED 60 00 00 ff ff ff 4f 00 8d+07:34:06.973 READ FPDMA QUEUED 60 00 00 ff ff ff 4f 00 8d+07:34:06.970 READ FPDMA QUEUED Error 94 occurred at disk power-on lifetime: 38156 hours (1589 days + 20 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 00 ff ff ff 0f Error: UNC at LBA = 0x0fffffff = 268435455 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- 60 00 00 ff ff ff 4f 00 7d+09:05:32.647 READ FPDMA QUEUED ea 00 00 00 00 00 a0 00 7d+09:05:32.635 FLUSH CACHE EXT 60 00 00 ff ff ff 4f 00 7d+09:05:32.615 READ FPDMA QUEUED 61 00 08 ff ff ff 4f 00 7d+09:05:32.615 WRITE FPDMA QUEUED ea 00 00 00 00 00 a0 00 7d+09:05:32.542 FLUSH CACHE EXT Error 93 occurred at disk power-on lifetime: 38156 hours (1589 days + 20 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 00 ff ff ff 0f Error: WP at LBA = 0x0fffffff = 268435455 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- 61 00 e0 38 6e c5 41 00 7d+08:45:28.971 WRITE FPDMA QUEUED 60 00 08 ff ff ff 4f 00 7d+08:45:28.968 READ FPDMA QUEUED 61 00 68 ff ff ff 4f 00 7d+08:45:28.968 WRITE FPDMA QUEUED 27 00 00 00 00 00 e0 00 7d+08:45:28.937 READ NATIVE MAX ADDRESS EXT [OBS-ACS-3] ec 00 00 00 00 00 a0 00 7d+08:45:28.935 IDENTIFY DEVICE Error 92 occurred at disk power-on lifetime: 38156 hours (1589 days + 20 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 00 ff ff ff 0f Error: UNC at LBA = 0x0fffffff = 268435455 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- 60 00 08 ff ff ff 4f 00 7d+08:45:25.290 READ FPDMA QUEUED 60 00 08 ff ff ff 4f 00 7d+08:45:25.285 READ FPDMA QUEUED 61 00 20 40 15 45 43 00 7d+08:45:25.285 WRITE FPDMA QUEUED 61 00 28 80 11 45 43 00 7d+08:45:25.284 WRITE FPDMA QUEUED 61 00 20 60 ff 44 43 00 7d+08:45:25.284 WRITE FPDMA QUEUED Error 91 occurred at disk power-on lifetime: 38156 hours (1589 days + 20 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 40 51 00 ff ff ff 0f Error: UNC at LBA = 0x0fffffff = 268435455 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- 60 00 00 ff ff ff 4f 00 7d+08:45:20.387 READ FPDMA QUEUED 60 00 00 ff ff ff 4f 00 7d+08:45:20.385 READ FPDMA QUEUED 60 00 00 ff ff ff 4f 00 7d+08:45:20.383 READ FPDMA QUEUED ea 00 00 00 00 00 a0 00 7d+08:45:20.368 FLUSH CACHE EXT 60 00 00 ff ff ff 4f 00 7d+08:45:20.367 READ FPDMA QUEUED SMART Self-test log structure revision number 1 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Extended offline Completed: read failure 20% 40054 844622245 # 2 Extended offline Completed: read failure 20% 40048 844630767 # 3 Extended offline Completed without error 00% 2 - # 4 Short offline Completed without error 00% 0 - SMART Selective self-test log data structure revision number 1 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS 1 0 0 Not_testing 2 0 0 Not_testing 3 0 0 Not_testing 4 0 0 Not_testing 5 0 0 Not_testing Selective self-test flags (0x0): After scanning selected spans, do NOT read-scan remainder of disk. If Selective self-test is pending on power-up, resume after 0 minute delay
A noter que avant de lancer les tests, j'ai récupéré avec sucés toutes les données du disque.

Pour 90% des données, j'avais un checksum (SHA256) et j'ai été étonné de n'avoir aucune erreur de checksum.
Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: vivien le 23 juillet 2015 à 10:33:15: Citation de: BadMax le 18 juillet 2015 à 20:31:03
Tu pourrais nous donner le contenu de /etc/fstab pour /dev/sda2 ?

C'est ça que tu souhaites ?

# cat /etc/fstab # /etc/fstab: static file system information. # # Use 'blkid' to print the universally unique identifier for a # device; this may be used with UUID= as a more robust way to name devices # that works even if disks are added and removed. See fstab(5). # # <file system> <mount point> <type> <options> <dump> <pass> # / was on /dev/sda1 during installation UUID=36dd6a10-da30-4136-ad52-cdfd5e417708 / ext4 errors=remount-ro 0 1 # /home was on /dev/sda6 during installation UUID=d751c853-b78d-46f1-b154-5d9a651ce7c5 /home ext4 defaults 0 2 # swap was on /dev/sda5 during installation UUID=f76b3232-fae7-459c-86d2-a409d66cef6a none swap sw 0 0

Le partitionnement :
- / de 29,8 Gio
- swap de 7,5 Gio
- /home de 428,5 Gio
(https://lafibre.info/images/materiel/201507_smart_disque_dur_hs_3.png)
Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: jack le 23 juillet 2015 à 10:46:42: Je trouve que l'utilisation de smartmontool pour "prévoir" les pannes de disques est une méthode hasardeuse

J'ai ce genre de message sur plusieurs de mes machines :
Code: [Sélectionner]
CRIT - Reallocated sectors: 0, Powered on: 25859 hours, Spin retries: 0, Power cycles: 23, End-to-End errors: 0, Uncorrectable errors: 2(!!), Command timeouts: 4295032833(!!), Pending sectors: 0, UDMA CRC errors: 0Et ce depuis 71j, dixit la probe

De plus, et sur d'autres machines, j'ai nombre de valeurs qui sont en "Pre-fail" depuis .. des années

Bref, pour conclure, je ne trouve pas que smartmontool soit d'une quelconque utilité. Toutes mes machines de productions intégrent une notion de duplication de données en temps réel, d'une manière ou d'une autre, ce qui me permet d'user un disque jusqu'à la moelle sans vergogne
Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: vivien le 23 juillet 2015 à 11:06:02: De mon coté, je ne fais pas de raid, mais des sauvegardes, car je trouve le raid coûteux et on n'a aucune info sur les disques.

Il y a 10 ans, j'ai perdu un RAID 5 qui a eu 2 disques défectueux.

De plus au reboot d'un serveur en raid avec un disque défectueux, on va avoir un message d'alerte avec "appuyer sur F1 pour continuer" => le serveur ne redémarre plus après une simple mise-à-jour du noyau, obligation d'aller sur site.

2 disques SAS de 300 Go 10 000 tr/min en RADI 1 matériel :
Code: [Sélectionner]
# smartctl -a /dev/sda smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-57-generic] (local build) Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org === START OF INFORMATION SECTION === Vendor: IBM Product: ServeRAID M5014 Revision: 2.12 User Capacity: 298 999 349 248 bytes [298 GB] Logical block size: 512 bytes Logical Unit id: 0x600605b004967df017687fca0e8cda98 Serial number: 0098da8c0eca7f6817f07d9604b00506 Device type: disk Local Time is: Thu Jul 23 11:03:00 2015 CEST SMART support is: Unavailable - device lacks SMART capability. === START OF READ SMART DATA SECTION === Error Counter logging not supported Device does not support Self Test logging
2 disques SAS de 73 Go 10 000 tr/min en RADI 1 matériel :
Code: [Sélectionner]
# smartctl -a /dev/sda smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-87-generic] (local build) Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net Vendor: ServeRA Product: Drive 1 Revision: V1.0 User Capacity: 73 283 928 064 bytes [73,2 GB] Logical block size: 512 bytes scsiModePageOffset: response length too short, resp_len=4 offset=4 bd_len=0 >> Terminate command early due to bad response to IEC mode page A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.
Du coté des pannes, j'ai vraiment l'impression que c'est à l’utilisation (read/write) qu'ils s’usent.

Les disques qui tournent des années mais avec presque aucune IO, je n'ai jamais de soucis.
Ceux qui sont fortement sollicités 24h/24 365j/an, tombent en panne régulièrement.
Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: jack le 23 juillet 2015 à 15:13:57: Pas de bol pour ce qui est de perdre deux disque d'un raid 5 dans un délai bref (m'enfin, c'est pareil que de perde le disque de production + le disque de sauvegarde dans un délai tout aussi bref, non ?)

(c'est clair que smartmontool ne sert à rien avec du raid hard; m'enfin, tu as des outils adaptés, en fonction de ton fournisseur de raid, pour superviser tout cela; on me susurre également que mdadm rocks 8))
Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: miky01 le 23 juillet 2015 à 16:22:28: Vivien, j'ai vu que tu as des disc SAS 73 Gb/10K 2.5' sur tes servers, j'en ai 5 de recup sur des serveurs decomisionné, pas la moindre idée de l'état, si ca peux te servir comme spare parts, je te les donne volontier, par contre avec ces disc tu peux avoir des soucis de firmwaire, j'ai vu pas mal d'incompatibilté entre différente mareque de server, qui accepte que leurs modèle spécifique.

J'ai aussi qques SATA2 500 Gb 3.5'' qui provienne de bay EMC, donc prévu pour utilisation intensive.

(http://s16.postimg.org/pa85wjeph/sas_disc.jpg)

C'est certain que utiliser un disc low cost de PC pour des acces 24/24 permanant, il pète rapidement, pas fait pour.
Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: vivien le 23 juillet 2015 à 18:19:31: Merci pour la proposition ne les jette pas.

Je suis fan de vieux matériel, et mon Compaq bi pentium III de collection a perdu son disque 18,2 Go 10 000 tr/min Ultra3 SCSI sur son RAID-5. 5 disques 10 00 tr/min Ultra3 SCSI dans le serveur : 2 x 9,1 Go en RAID 1 pour le système d'exploitation et 3 x 18,2 Go en RAID 5 pour les données. Si tu as des vieillerie comme ça il faut pas jeter. Le serveur ne sait pas gérer les disques IDE ou SATA : uniquement SCSI.

Sinon, je dois dire que j’apprécie Dell en constructeur de serveur, car pas de souci pour changer du matériel, au moins sur les modèles entrée de gamme.

Pour la durée de vie des disques dur, je ne suis pas persuadé qu'un disque por tombe moins en panne qu'un disque classique.
J'avais acheté un "Western Digital Caviar Black", le haut de gamme SATA qui coûte super cher => il est tombé en panne après 3 ans (mais avec la garantie de 5 ans pas de souci)
Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: BadMax le 23 juillet 2015 à 19:19:25: Je suis comme Vivien: j'ai arrêté de faire du RAID pour mes données principales et préfère tout gérer avec ZFS et des snapshots quotidiens exportés d'un disque à l'autre en plus d'une externe manuelle.

Par contre j'utilise du RAID5 pour 4 disques SCSI 36Go 10000rpm pour les images de mes VMs VirtualBox: les temps de réponse sont excellents !

Note sur les disques EMC: j'ai récupéré les memes, ils sont bruyants et ne supportent pas toutes les cartes mères du fait du delai au demarrage apres mise sous tension (le disque attend un ordre). Sinon c'est parfait en H24 :)
Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: miky01 le 23 juillet 2015 à 22:18:38: Je jette rien... je me fait assez engeuler pour ca :)

J'ai fais mes cartons de disc, en wide scsi j'ai 2 Segate 18.2 Gb, un 10k et un 15k, plus un Quantum 18.2/10k
C'est les 3 seuls qu j'ai en 18.2 Gb, si ca peux te dépaner ?
Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: vivien le 23 juillet 2015 à 23:43:07: Oui, cela m'intéresse, le jour où l'on se verra (je vais essayer d'organiser une visite de datacenter sur Lyon)
Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: vivien le 06 septembre 2015 à 09:48:33: Je cherche à voir l’état de disques dur IBM SAS 73,4 Go qui sont à 15 000 tr/min et qui ont tourné à cette vitesse pendant 7 ans sans s’arrêter.

C'est normal de ne pas avoir de données Smart ?

C'est un serveur IBM System x3550 1u (Intel Xeon E5430 @2.66GHz) avec deux disques SAS Hot-Swap de 3,5 pouces.

La carte RAID intégrée a la carte mère du serveur :
02:00.0 RAID bus controller: Adaptec AAC-RAID (Rocket) (rev 02) Subsystem: IBM ServeRAID 8k/8k-l8 Flags: bus master, fast devsel, latency 0, IRQ 17 Memory at cce00000 (64-bit, non-prefetchable) [size=2M] Memory at cafe0000 (64-bit, prefetchable) [size=128K] I/O ports at 4000 [size=256] [virtual] Expansion ROM at cb000000 [disabled] [size=32K] Capabilities: <access denied> Kernel driver in use: aacraid

Données Smart sur /dev/sda : c'est le contrôleur RAID IBM ServeRAID 8k :
Code: [Sélectionner]
# smartctl -a /dev/sda smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.19.0-26-generic] (local build) Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org === START OF INFORMATION SECTION === Vendor: ServeRA Product: Drive 1 Revision: V1.0 User Capacity: 73 283 928 064 bytes [73,2 GB] Logical block size: 512 bytes scsiModePageOffset: response length too short, resp_len=4 offset=4 bd_len=0 scsiModePageOffset: response length too short, resp_len=4 offset=4 bd_len=0 >> Terminate command early due to bad response to IEC mode page A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.
Données Smart sur /dev/sg0 : c'est le lecteur de DVD IDE :
Code: [Sélectionner]
# smartctl -a /dev/sg0 smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.19.0-26-generic] (local build) Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org === START OF INFORMATION SECTION === Vendor: MATSHITA Product: UJDA780 DVD/CDRW Revision: CA21 >> Terminate command early due to bad response to IEC mode page A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.
Données Smart sur /dev/sg1 : c'est le contrôleur RAID IBM ServeRAID 8k :
Code: [Sélectionner]
# smartctl -a /dev/sg1 smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.19.0-26-generic] (local build) Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org === START OF INFORMATION SECTION === Vendor: ServeRA Product: Drive 1 Revision: V1.0 User Capacity: 73 283 928 064 bytes [73,2 GB] Logical block size: 512 bytes scsiModePageOffset: response length too short, resp_len=4 offset=4 bd_len=0 scsiModePageOffset: response length too short, resp_len=4 offset=4 bd_len=0 >> Terminate command early due to bad response to IEC mode page A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.
Données Smart sur /dev/sg2 : c'est le premier disque dur SAS de 73,4 Go 15 000 tr/min :
Problème, il manque beaucoup d'informations...
Code: [Sélectionner]
# smartctl -a /dev/sg2 smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.19.0-26-generic] (local build) Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org === START OF INFORMATION SECTION === Vendor: IBM-ESXS Product: ST373455SS Revision: BA26 User Capacity: 73 407 488 000 bytes [73,4 GB] Logical block size: 512 bytes Rotation Rate: 15015 rpm Logical Unit id: 0x5000c5000a856087 Serial number: 3LQ3BSZD00009846R5C5 Device type: disk Transport protocol: SAS (SPL-3) Local Time is: Sun Sep 6 09:39:45 2015 CEST SMART support is: Available - device has SMART capability. SMART support is: Enabled Temperature Warning: Enabled === START OF READ SMART DATA SECTION === SMART Health Status: OK Current Drive Temperature: 32 C Drive Trip Temperature: 68 C ^[[AElements in grown defect list: 0 Vendor (Seagate) cache information Blocks sent to initiator = 3284775082 Blocks received from initiator = 1815987392 Blocks read from cache and sent to initiator = 97355681 Number of read and write commands whose size <= segment size = 687239190 Number of read and write commands whose size > segment size = 0 Vendor (Seagate/Hitachi) factory information number of hours powered up = 58001,67 number of minutes until next internal SMART test = 58 Error counter log: Errors Corrected by Total Correction Gigabytes Total ECC rereads/ errors algorithm processed uncorrected fast | delayed rewrites corrected invocations [10^9 bytes] errors read: 11131499 0 0 11131499 11131499 943,352 0 write: 0 0 0 0 0 5372,021 0 verify: 80016935 0 0 80016935 80016935 51316,364 0 Non-medium error count: 1 No self-tests have been logged
Données Smart sur /dev/sg3 : c'est le premier disque dur SAS de 73,4 Go 15 000 tr/min :
Problème, il manque beaucoup d'informations...
Code: [Sélectionner]
# smartctl -a /dev/sg3 smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.19.0-26-generic] (local build) Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org === START OF INFORMATION SECTION === Vendor: IBM-ESXS Product: ST373455SS Revision: BA26 User Capacity: 73 407 488 000 bytes [73,4 GB] Logical block size: 512 bytes Rotation Rate: 15015 rpm Logical Unit id: 0x5000c5000a855633 Serial number: 3LQ3BV8B00009846W113 Device type: disk Transport protocol: SAS (SPL-3) Local Time is: Sun Sep 6 09:39:50 2015 CEST SMART support is: Available - device has SMART capability. SMART support is: Enabled Temperature Warning: Enabled === START OF READ SMART DATA SECTION === SMART Health Status: OK Current Drive Temperature: 31 C Drive Trip Temperature: 68 C Elements in grown defect list: 0 Vendor (Seagate) cache information Blocks sent to initiator = 3205604436 Blocks received from initiator = 1815975535 Blocks read from cache and sent to initiator = 93893718 Number of read and write commands whose size <= segment size = 686719180 Number of read and write commands whose size > segment size = 0 Vendor (Seagate/Hitachi) factory information number of hours powered up = 58065,97 number of minutes until next internal SMART test = 58 Error counter log: Errors Corrected by Total Correction Gigabytes Total ECC rereads/ errors algorithm processed uncorrected fast | delayed rewrites corrected invocations [10^9 bytes] errors read: 17692594 3 0 17692597 17692597 921,138 0 write: 0 0 0 0 0 5373,050 0 verify: 607888953 0 0 607888953 607888953 51306,641 0 Non-medium error count: 14 No self-tests have been logged
Les performances de ces vieux disques en RAID1 via la carte RAID intégrée :
(https://lafibre.info/images/materiel/200805_disque_dur_SAS_IBM-ESXS_System_x3550.png)

Documentation de 2006 : (cliquez sur les miniatures ci-dessous - les documents sont au format PDF)
(https://lafibre.info/images/materiel/200606_IBM_System_x3550_guide_utilisation.png) (https://lafibre.info/images/materiel/200606_IBM_System_x3550_guide_utilisation.pdf) (https://lafibre.info/images/materiel/200606_IBM_System_x3550_guide_installation.png) (https://lafibre.info/images/materiel/200606_IBM_System_x3550_guide_installation.pdf) (https://lafibre.info/images/materiel/200606_IBM_System_x3550_guide_maintenance.png) (https://lafibre.info/images/materiel/200606_IBM_System_x3550_guide_maintenance.pdf)

Documentation de 2008 : (cliquez sur la miniature ci-dessous - le document est au format PDF)
(https://lafibre.info/images/materiel/200803_IBM_System_x3550_guide_produit.png) (https://lafibre.info/images/materiel/200803_IBM_System_x3550_guide_produit.pdf)
Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: BadMax le 06 septembre 2015 à 10:08:11: C'est parce que toutes les données SMART ne sont pas obligatoires, seul l'état de santé global du disque l'est.

Pour comparaison, Fujitsu 73Go SCSI U320 10000rpm
Code: [Sélectionner]
root@nikita:~# smartctl -a /dev/sdc smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-54-generic] (local build) Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org === START OF INFORMATION SECTION === Vendor: FUJITSU Product: MAP3735NP Revision: 5605 User Capacity: 73 407 820 800 bytes [73,4 GB] Logical block size: 512 bytes Rotation Rate: 10025 rpm Serial number: UPG3P2C0083J Device type: disk Transport protocol: Parallel SCSI (SPI-4) Local Time is: Sun Sep 6 10:04:59 2015 CEST SMART support is: Available - device has SMART capability. SMART support is: Enabled Temperature Warning: Enabled === START OF READ SMART DATA SECTION === SMART Health Status: OK Current Drive Temperature: 26 C Drive Trip Temperature: 65 C Manufactured in week 51 of year 2002 Specified cycle count over device lifetime: 10000 Accumulated start-stop cycles: 556 Elements in grown defect list: 0 Error counter log: Errors Corrected by Total Correction Gigabytes Total ECC rereads/ errors algorithm processed uncorrected fast | delayed rewrites corrected invocations [10^9 bytes] errors read: 0 241 0 0 0 176294,849 0 write: 0 123 0 0 0 71885,676 0 verify: 0 0 0 0 0 0,320 0 Non-medium error count: 732 SMART Self-test log Num Test Status segment LifeTime LBA_first_err [SK ASC ASQ] Description number (hours) # 1 Background long Completed - 45915 - [- - -] # 2 Background long Completed - 0 - [- - -] # 3 Background short Completed - 0 - [- - -] Long (extended) Self Test duration: 2191 seconds [36,5 minutes]
Hitachi 73Go U320 15k rpm
Code: [Sélectionner]
root@nikita:~# smartctl -a /dev/sdd smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-54-generic] (local build) Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org === START OF INFORMATION SECTION === Vendor: HITACHI Product: HUS151473VL3600 Revision: S3BA User Capacity: 73 407 820 800 bytes [73,4 GB] Logical block size: 512 bytes Rotation Rate: 15000 rpm Logical Unit id: 0x5000cca006d49d75 Serial number: JCWGAVLK Device type: disk Transport protocol: Parallel SCSI (SPI-4) Local Time is: Sun Sep 6 10:06:33 2015 CEST SMART support is: Available - device has SMART capability. SMART support is: Enabled Temperature Warning: Enabled === START OF READ SMART DATA SECTION === SMART Health Status: OK Current Drive Temperature: 33 C Drive Trip Temperature: 85 C Manufactured in week 20 of year 2007 Specified cycle count over device lifetime: 50000 Accumulated start-stop cycles: 960 Elements in grown defect list: 0 Vendor (Seagate) cache information Blocks sent to initiator = 706832565796864 Error counter log: Errors Corrected by Total Correction Gigabytes Total ECC rereads/ errors algorithm processed uncorrected fast | delayed rewrites corrected invocations [10^9 bytes] errors read: 106718 32835 0 106718 11 1896,920 0 write: 99816 0 0 99816 0 855,047 0 verify: 9262 2267 0 9262 0 20,358 0 Non-medium error count: 1 SMART Self-test log Num Test Status segment LifeTime LBA_first_err [SK ASC ASQ] Description number (hours) # 1 Background long Completed - 7232 - [- - -] Long (extended) Self Test duration: 1205 seconds [20,1 minutes]
Comme tu peux le voir, sur chacun j'ai effectué un auto-test long afin d'avoir un vrai bilan, tu devrais faire de même.
Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: vivien le 06 septembre 2015 à 11:13:20: Après un 'auto-test long :

/dev/sg2
Code: [Sélectionner]
# smartctl -a /dev/sg2 smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.19.0-26-generic] (local build) Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org === START OF INFORMATION SECTION === Vendor: IBM-ESXS Product: ST373455SS Revision: BA26 User Capacity: 73 407 488 000 bytes [73,4 GB] Logical block size: 512 bytes Rotation Rate: 15015 rpm Logical Unit id: 0x5000c5000a856087 Serial number: 3LQ3BSZD00009846R5C5 Device type: disk Transport protocol: SAS (SPL-3) Local Time is: Sun Sep 6 11:09:59 2015 CEST SMART support is: Available - device has SMART capability. SMART support is: Enabled Temperature Warning: Enabled === START OF READ SMART DATA SECTION === SMART Health Status: OK Current Drive Temperature: 33 C Drive Trip Temperature: 68 C Elements in grown defect list: 0 Vendor (Seagate) cache information Blocks sent to initiator = 3288230457 Blocks received from initiator = 1816127472 Blocks read from cache and sent to initiator = 97484929 Number of read and write commands whose size <= segment size = 687246043 Number of read and write commands whose size > segment size = 0 Vendor (Seagate/Hitachi) factory information number of hours powered up = 58002,15 number of minutes until next internal SMART test = 39 Error counter log: Errors Corrected by Total Correction Gigabytes Total ECC rereads/ errors algorithm processed uncorrected fast | delayed rewrites corrected invocations [10^9 bytes] errors read: 11792497 0 0 11792497 11792497 944,215 0 write: 0 0 0 0 0 5372,093 0 verify: 80026932 0 0 80026932 80026932 51317,284 0 Non-medium error count: 1 SMART Self-test log Num Test Status segment LifeTime LBA_first_err [SK ASC ASQ] Description number (hours) # 1 Background long Completed - 58002 - [- - -] Long (extended) Self Test duration: 721 seconds [12,0 minutes]
/dev/sg3 :
Code: [Sélectionner]
# smartctl -a /dev/sg3 smartctl 6.4 2014-10-07 r4002 [x86_64-linux-3.19.0-26-generic] (local build) Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org === START OF INFORMATION SECTION === Vendor: IBM-ESXS Product: ST373455SS Revision: BA26 User Capacity: 73 407 488 000 bytes [73,4 GB] Logical block size: 512 bytes Rotation Rate: 15015 rpm Logical Unit id: 0x5000c5000a855633 Serial number: 3LQ3BV8B00009846W113 Device type: disk Transport protocol: SAS (SPL-3) Local Time is: Sun Sep 6 11:12:22 2015 CEST SMART support is: Available - device has SMART capability. SMART support is: Enabled Temperature Warning: Enabled === START OF READ SMART DATA SECTION === SMART Health Status: OK Current Drive Temperature: 32 C Drive Trip Temperature: 68 C Elements in grown defect list: 0 Vendor (Seagate) cache information Blocks sent to initiator = 3209416645 Blocks received from initiator = 1816159359 Blocks read from cache and sent to initiator = 94053268 Number of read and write commands whose size <= segment size = 686726467 Number of read and write commands whose size > segment size = 0 Vendor (Seagate/Hitachi) factory information number of hours powered up = 58066,50 number of minutes until next internal SMART test = 37 Error counter log: Errors Corrected by Total Correction Gigabytes Total ECC rereads/ errors algorithm processed uncorrected fast | delayed rewrites corrected invocations [10^9 bytes] errors read: 18476429 3 0 18476432 18476432 922,152 0 write: 0 0 0 0 0 5373,144 0 verify: 607893947 0 0 607893947 607893947 51307,587 0 Non-medium error count: 14 SMART Self-test log Num Test Status segment LifeTime LBA_first_err [SK ASC ASQ] Description number (hours) # 1 Background long Completed - 58066 - [- - -] Long (extended) Self Test duration: 721 seconds [12,0 minutes]
Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: seb le 06 septembre 2015 à 13:45:32: Citation de: BadMax le 06 septembre 2015 à 10:08:11
C'est parce que toutes les données SMART ne sont pas obligatoires, seul l'état de santé global du disque l'est.
Ou parce que les disques sont branchés en direct sur le contrôleur RAID et que celui-ci n'implèmente pas (toutes) les ioctl nécessaires à SMART.
Le même problème se pose souvent avec des disques installés dans des boîtiers USB : le contrôleur USB/SATA ne remonte qu'une partie des infos normalement présentées par le disque (quand il en remonte !).
Titre: Déterminer les pb d'un disque dur avec smartctl
Posté par: BadMax le 06 septembre 2015 à 16:04:45: Je n'ai pas de controleur RAID, je suis en direct via une 39320 et j'ai les memes datas que vivien :)

Souvent le controleur RAID ne montre qu'un lecteur logique et les données SMART sont inaccessibles. Vivien a meme du bol que le sien permette d'y accèder.

En USB vers SATA c'est encore différent car tu utilises un bridge entre les 2 bus.

SMF 2.0.19 | SMF © 2011, Simple Machines
Simple Audio Video Embedder