Données SMART: Faut-il s'affoler ?

Données SMART: Faut-il s'affoler ? - Hardware - Linux et OS Alternatifs

Marsh Posté le 01-06-2012 à 13:09:23    

Depuis quelques semaines, j'ai des freezes soit lors d'ouverture d'applis, ou de switch d'applis déjà lancées, et très rarement sans rien faire de spécial.
Chaque freeze dure au moins 10s, le son tourne en boucle (vlc, mumble...), la souris est quasi freezée aussi, bref faut patienter.
 
Le disque incriminé est dans un portable qui subit des mises en veille régulières (en gros j'éteins très rarement le pc, mise en veille à 90%).
 

Code :
  1. smartctl 5.43 2012-05-01 r3539 [x86_64-linux-3.3.0-trunk-amd64] (local build)
  2. Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net
  3. === START OF INFORMATION SECTION ===
  4. Model Family:     Seagate Momentus 5400.6
  5. Device Model:     ST9500325AS
  6. Serial Number:    6VEQL7T2
  7. LU WWN Device Id: 5 000c50 036b00cd6
  8. Firmware Version: 0020LVM1
  9. User Capacity:    500,107,862,016 bytes [500 GB]
  10. Sector Size:      512 bytes logical/physical
  11. Device is:        In smartctl database [for details use: -P show]
  12. ATA Version is:   8
  13. ATA Standard is:  ATA-8-ACS revision 4
  14. Local Time is:    Fri Jun  1 13:04:38 2012 CEST
  15. SMART support is: Available - device has SMART capability.
  16. SMART support is: Enabled
  17. === START OF READ SMART DATA SECTION ===
  18. SMART overall-health self-assessment test result: PASSED
  19. General SMART Values:
  20. Offline data collection status:  (0x82) Offline data collection activity
  21.     was completed without error.
  22.     Auto Offline Data Collection: Enabled.
  23. Self-test execution status:      (   0) The previous self-test routine completed
  24.     without error or no self-test has ever
  25.     been run.
  26. Total time to complete Offline
  27. data collection:   (    0) seconds.
  28. Offline data collection
  29. capabilities:     (0x7b) SMART execute Offline immediate.
  30.     Auto Offline data collection on/off support.
  31.     Suspend Offline collection upon new
  32.     command.
  33.     Offline surface scan supported.
  34.     Self-test supported.
  35.     Conveyance Self-test supported.
  36.     Selective Self-test supported.
  37. SMART capabilities:            (0x0003) Saves SMART data before entering
  38.     power-saving mode.
  39.     Supports SMART auto save timer.
  40. Error logging capability:        (0x01) Error logging supported.
  41.     General Purpose Logging supported.
  42. Short self-test routine
  43. recommended polling time:   (   1) minutes.
  44. Extended self-test routine
  45. recommended polling time:   ( 144) minutes.
  46. Conveyance self-test routine
  47. recommended polling time:   (   2) minutes.
  48. SCT capabilities:         (0x103b) SCT Status supported.
  49.     SCT Error Recovery Control supported.
  50.     SCT Feature Control supported.
  51.     SCT Data Table supported.
  52. SMART Attributes Data Structure revision number: 10
  53. Vendor Specific SMART Attributes with Thresholds:
  54. ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  55.   1 Raw_Read_Error_Rate     0x000f   117   099   034    Pre-fail  Always       -       135488931
  56.   3 Spin_Up_Time            0x0003   099   099   000    Pre-fail  Always       -       0
  57.   4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       563
  58.   5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  59.   7 Seek_Error_Rate         0x000f   069   060   030    Pre-fail  Always       -       8250329
  60.   9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -       1841 (19 133 0)
  61. 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
  62. 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       504
  63. 184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
  64. 187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
  65. 188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
  66. 189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
  67. 190 Airflow_Temperature_Cel 0x0022   051   049   045    Old_age   Always       -       49 (Min/Max 39/50)
  68. 191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       9
  69. 192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       14
  70. 193 Load_Cycle_Count        0x0032   099   099   000    Old_age   Always       -       2410
  71. 194 Temperature_Celsius     0x0022   049   051   000    Old_age   Always       -       49 (0 15 0 0 0)
  72. 195 Hardware_ECC_Recovered  0x001a   054   039   000    Old_age   Always       -       135488931
  73. 196 Reallocated_Event_Count 0x000f   098   098   030    Pre-fail  Always       -       1831 (26403 0)
  74. 197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
  75. 198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
  76. 199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
  77. SMART Error Log Version: 1
  78. No Errors Logged
  79. SMART Self-test log structure revision number 1
  80. Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
  81. # 1  Extended offline    Completed without error       00%      1053         -
  82. # 2  Vendor (0x50)       Completed without error       00%         0         -
  83. SMART Selective self-test log data structure revision number 1
  84. SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
  85.     1        0        0  Not_testing
  86.     2        0        0  Not_testing
  87.     3        0        0  Not_testing
  88.     4        0        0  Not_testing
  89.     5        0        0  Not_testing
  90. Selective self-test flags (0x0):
  91.   After scanning selected spans, do NOT read-scan remainder of disk.
  92. If Selective self-test is pending on power-up, resume after 0 minute delay.


 
Alors, docteur c'est grave ?
 
Faut que je testes aussi avec un autre disque dur qui traine.

Reply

Marsh Posté le 01-06-2012 à 13:09:23   

Reply

Marsh Posté le 01-06-2012 à 15:31:00    

Ton "Seek_Error_Rate" est un peu haut (quand la valeur décodée lue descend, c'est que le taux d'erreur indiqué est haut)

 

Ca vient en général de 2 choses, ce genre d'erreurs :
- Mécanismes de déplacement des têtes fatigués/endommagés (moteurs pas à pas/servo-moteurs)
- Dilatation excessive des plateaux, due à une chaleur trop importante

 

Je vois aussi que la température de ton DD, au moment où tu as obtenues ces données SMART, est un peu élevée, AMHA

 

Essaies de voir s'il n'y a pas un pb de ventilation dans ton portable (poussière, bouloches, orifices de ventilation obstrués, etc ...),
et vérifies que si la température baisse, le compteur augmente (le taux d'erreurs diminue)

 

Mais bon, fais un backup des choses importantes de ce disque ... on est jamais trop prudent


Message édité par Zzozo le 01-06-2012 à 15:31:23

---------------
« Ce qui ne vous tue pas vous rend plus fort » F. Nietzsche | « Vise_ la Lune. Si tu rates, au pire, t'es dans la merde » Un poète disparu dans le cercle
Reply

Marsh Posté le 01-06-2012 à 17:24:34    

Le backup est fait (j'ai un 2To d'appoint pour faire mes backups, allumés seulement lorsque j'ai des fichiers à sauvegarder) :jap:
 
Pour la température je vais surveiller, j'ai l'habitude de laisser l'écran fermé (sortie sur écran externe).

Reply

Marsh Posté le 01-06-2012 à 22:50:50    

Je ne trouve rien de choquant, même le compteur "Load cycle count", qui compte le nombre de parquage des têtes, n'a pas de valeur élevée.
 
Et souvent, dans ce cas, le déparquage des têtes prend une ou deux secondes en faisant un "clic" assez bruyant, tout en rendant le disque inutilisable pendant ce temps.
 
Mais le compteur "G-sense error rate" est assez élevé, ça peut avoir causé des problèmes mécaniques (même si il n'y a pas de servos et plus de moteurs pas à pas dans les disques depuis bien longtemps :o).
En gros à chaque choc assez violent, le moteur s'arrête et les têtes se parquent, puis le disque redémarre, *parfois* ça peut faire des dégâts.
(les disques récents ont un accéléromètre pour arrêter le disque avant le choc, pendant la chute libre).


---------------
Si tu bois froid juste après le potage chaud, ça va faire sauter l'émail de tes dents - Monorailcat iz ohverin
Reply

Marsh Posté le 01-06-2012 à 22:57:55    

Et aucun secteur réalloué, pour moi il a l'air sain.


---------------
(old) Feed HA/V          
Reply

Marsh Posté le 02-06-2012 à 00:49:56    

Ecran ouvert, le disque oscille entre 47° et 49°, le plastique au dessus est tiède mais c'est pas affolant.
Je vais tenter d'ouvrir la bête demain (après restauration de mes partoches sur un autre dd)

Reply

Marsh Posté le 02-06-2012 à 09:49:08    

Nouveau disque en place (après avoir compris que grub-install nécessitait un boot-directory), espérons que ca tienne mieux.
 

Code :
  1. smartctl 5.43 2012-05-01 r3539 [x86_64-linux-3.3.0-trunk-amd64] (local build)
  2. Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net
  3. === START OF INFORMATION SECTION ===
  4. Model Family:     Western Digital Scorpio Blue Serial ATA
  5. Device Model:     WDC WD3200BEVT-22ZCT0
  6. Serial Number:    WD-WXE309P79354
  7. LU WWN Device Id: 5 0014ee 2ad3eafbd
  8. Firmware Version: 11.01A11
  9. User Capacity:    320,072,933,376 bytes [320 GB]
  10. Sector Size:      512 bytes logical/physical
  11. Device is:        In smartctl database [for details use: -P show]
  12. ATA Version is:   8
  13. ATA Standard is:  Exact ATA specification draft version not indicated
  14. Local Time is:    Sat Jun  2 09:44:28 2012 CEST
  15. SMART support is: Available - device has SMART capability.
  16. SMART support is: Enabled
  17. === START OF READ SMART DATA SECTION ===
  18. SMART overall-health self-assessment test result: PASSED
  19. General SMART Values:
  20. Offline data collection status:  (0x00) Offline data collection activity
  21.     was never started.
  22.     Auto Offline Data Collection: Disabled.
  23. Self-test execution status:      (   0) The previous self-test routine completed
  24.     without error or no self-test has ever
  25.     been run.
  26. Total time to complete Offline
  27. data collection:   ( 9600) seconds.
  28. Offline data collection
  29. capabilities:     (0x7b) SMART execute Offline immediate.
  30.     Auto Offline data collection on/off support.
  31.     Suspend Offline collection upon new
  32.     command.
  33.     Offline surface scan supported.
  34.     Self-test supported.
  35.     Conveyance Self-test supported.
  36.     Selective Self-test supported.
  37. SMART capabilities:            (0x0003) Saves SMART data before entering
  38.     power-saving mode.
  39.     Supports SMART auto save timer.
  40. Error logging capability:        (0x01) Error logging supported.
  41.     General Purpose Logging supported.
  42. Short self-test routine
  43. recommended polling time:   (   2) minutes.
  44. Extended self-test routine
  45. recommended polling time:   ( 113) minutes.
  46. Conveyance self-test routine
  47. recommended polling time:   (   5) minutes.
  48. SCT capabilities:         (0x303f) SCT Status supported.
  49.     SCT Error Recovery Control supported.
  50.     SCT Feature Control supported.
  51.     SCT Data Table supported.
  52. SMART Attributes Data Structure revision number: 16
  53. Vendor Specific SMART Attributes with Thresholds:
  54. ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  55.   1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  56.   3 Spin_Up_Time            0x0027   191   185   021    Pre-fail  Always       -       1416
  57.   4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       720
  58.   5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  59.   7 Seek_Error_Rate         0x002e   100   253   000    Old_age   Always       -       0
  60.   9 Power_On_Hours          0x0032   099   099   000    Old_age   Always       -       1311
  61. 10 Spin_Retry_Count        0x0033   100   100   051    Pre-fail  Always       -       0
  62. 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
  63. 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       683
  64. 192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       119
  65. 193 Load_Cycle_Count        0x0032   179   179   000    Old_age   Always       -       64014
  66. 194 Temperature_Celsius     0x0022   095   091   000    Old_age   Always       -       52
  67. 196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
  68. 197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
  69. 198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
  70. 199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
  71. 200 Multi_Zone_Error_Rate   0x0009   100   253   051    Pre-fail  Offline      -       0
  72. SMART Error Log Version: 1
  73. No Errors Logged
  74. SMART Self-test log structure revision number 1
  75. No self-tests have been logged.  [To run self-tests, use: smartctl -t]
  76. SMART Selective self-test log data structure revision number 1
  77. SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
  78.     1        0        0  Not_testing
  79.     2        0        0  Not_testing
  80.     3        0        0  Not_testing
  81.     4        0        0  Not_testing
  82.     5        0        0  Not_testing
  83. Selective self-test flags (0x0):
  84.   After scanning selected spans, do NOT read-scan remainder of disk.
  85. If Selective self-test is pending on power-up, resume after 0 minute delay.


La température n'est pas meilleure que l'ancien, mais c'est mieux pour le reste.

Reply

Marsh Posté le 02-06-2012 à 09:59:30    

vous pouvez me dire comment vous interprétez ces tests ?
 


---------------
" Quel est le but du capital ? Le but du capital c'est produire pour le capital. L'objectif, lui, est illimité. L'objectif du capital c'est produire pour produire." - Deleuze || André Gorz - Vers la société libérée
Reply

Marsh Posté le 02-06-2012 à 10:59:22    

gsmartcontrol donne une bonne explication de chaque ligne, mais des fois c'est vague.

Reply

Marsh Posté le 02-06-2012 à 11:58:23    

c'est plutot pour les colonnes que j'ai du mal, il faut regarder raw ou value ? si on est proche de worst c'est un problème ?


---------------
" Quel est le but du capital ? Le but du capital c'est produire pour le capital. L'objectif, lui, est illimité. L'objectif du capital c'est produire pour produire." - Deleuze || André Gorz - Vers la société libérée
Reply

Marsh Posté le 02-06-2012 à 11:58:23   

Reply

Marsh Posté le 02-06-2012 à 12:23:50    

Bonjour,
sur le site de Seagate, tu as un utilitaire qui s'appelle SeaTools avec une version Live à copier sur un CDRom. Cet utilitaire permet de faire un diagnostic de ton disque. Si ton disque est détecté comme défectueux, tu peux le retourner chez Seagate s'il est toujours sous garantie avec le code donné par SeaTools.
Testé la semaine dernière sur mon Seagate de 3 ans et 1/2 d'âge retourné chez le constructeur. Pour info, Smart m'avait donné très tôt des alertes ce qui m'avait conduit à migrer mon répertoire /home sur un autre disque.

Reply

Marsh Posté le 02-06-2012 à 14:29:24    

Je plussoie pour Seatools, très bon outil en complément de SMART.
(il peut permettre de diagnostiquer un disque dur foireux avec pourtant des données SMART normales)
Et utilisable sur HDD de toutes marques.

 

Il est fourni dans UltimateBootCD, ça évite de graver un CD juste pour cet utilitaire-là.


Message édité par deK le 02-06-2012 à 22:21:54

---------------
(old) Feed HA/V          
Reply

Marsh Posté le 02-06-2012 à 15:06:28    

Ah, c'est un peu tard, je dois avoir ca sur une clef usb quelque part [:transparency]
Et le portable dans lequel j'ai mis le disque malade ne veut pas s'allumer... j'aime le bug de l'électricité statique made in Acer.

Reply

Marsh Posté le 02-06-2012 à 15:53:56    

Magicpanda a écrit :

vous pouvez me dire comment vous interprétez ces tests ?

 


 
Magicpanda a écrit :

c'est plutot pour les colonnes que j'ai du mal, il faut regarder raw ou value ? si on est proche de worst c'est un problème ?


Il faut regarder les colonnes VALUE, WORST, et THRESH

 

Elles sont interprétées à partir de la colonne RAW qui sont les valeurs brutes, et dont la signification dépend (dans une certaine mesure) des constructeurs, voire des modèles

 

Les valeurs VALUE, WORST, et THRESH sont en qq sorte "normalisées" (en général 100, c'est la valeur nominale, 200 c'est que ça n'a pas encore changé depuis la sortie d'usine)

 

VALUE et WORST (pire valeur) sont des compteurs, qui se décrémentent, et THRESH (threshold, qui signifie seuil en anglais) indique la valeur plancher à partir de la quelle il y'a souci/lieu de s'inquiéter

 

VALUE est la valeur courante, et WORST la pire enregistrée durant la vie du DD (à vérifier pour le fait que ça soit enregistré durant la vie du DD)

 

Ex : Dans le cas de "Seek_Error_Rate", c'est un compteur qui diminue quand le taux/nb d'erreurs d'accès (aléatoires) augmente

 


En général, il faut corréler plusieurs valeurs pour arriver à avoir une idée de ce qui se passe.

 


Message édité par Zzozo le 03-06-2012 à 04:33:24

---------------
« Ce qui ne vous tue pas vous rend plus fort » F. Nietzsche | « Vise_ la Lune. Si tu rates, au pire, t'es dans la merde » Un poète disparu dans le cercle
Reply

Marsh Posté le 02-06-2012 à 19:42:48    

Merci beaucoup pour ces explications :)


---------------
" Quel est le but du capital ? Le but du capital c'est produire pour le capital. L'objectif, lui, est illimité. L'objectif du capital c'est produire pour produire." - Deleuze || André Gorz - Vers la société libérée
Reply

Marsh Posté le 03-06-2012 à 09:00:26    

Portable enfin démarré, Seatools en action pour un long test.
 
Le portable est garantie jusqu'au 26/07/2012 d'après rdc, mais ils me disent de le renvoyer au constructeur... pas moyen de spécifier l'origine du dysfonctionnement que je constate. J'ai pas envie de renvoyer un portable qui marche quand j'en ai un autre qui en fait à sa tête pour démarrer. Idem sur le site de Seagate, nous n'avons rien à vous dire, contactez votre revendeur OEM  [:jerome38]

Reply

Marsh Posté le 03-06-2012 à 11:46:47    

Verdict Seatools: Test passed without error.
 
Je fais un full wipe et reste à prier.

Reply

Marsh Posté le 03-06-2012 à 12:13:39    

À mon avis c'est pas le disque ton problème :o
 
Pas de truc bizarre dans le dmesg ?


---------------
(old) Feed HA/V          
Reply

Marsh Posté le 03-06-2012 à 13:12:43    

J'ai pas eu de freeze avec le nouveau disque depuis hier matin.
Je mettrais le disque qui tousse dans un boitier externe et je le testerai à nouveau d'ici quelques jours.

Reply

Marsh Posté le 03-06-2012 à 14:11:45    

Ça m'est arrivé ce mois-ci ça : un disque foireux (lent, freezes, et même non détecté sur une de mes configs) mais donné comme OK par tous les tests (SMART, SeaTools), et plus que 15j de garantie :o
 
J'ai du "l'aider" à être considéré comme HS par le SAV  :whistle:


---------------
(old) Feed HA/V          
Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed