[gull] smartctl - Offline uncorrectable sectors qui se repare ensuite tout seul ?!?
Frederic Dumas
f.dumas at ellis.siteparc.fr
Thu May 29 14:43:43 CEST 2025
Bonjour à tous,
ce mail de smartmontool m'annonçait deux secteurs défectueux sur un HDD:
> This message was generated by the smartd daemon running on:
>
> host name: *******
> DNS domain: [Empty]
>
> The following warning/error was logged by the smartd daemon:
>
> Device: /dev/sda [SAT], 2 Offline uncorrectable sectors
>
> Device info:
[SNIP]
Sans certitude, smart daemon énumère probablement des secteurs physiques de 4K, et non des secteurs logique de 512 bits, qui sinon devraient être défectueux par groupe de 8 (c.a.d que le défaut d'un secteur physique entraine celui des 8 secteurs logiques qui le recouvrent). Mais ce n'est pas le sujet.
Comme le HDD était dans une grappe RAID 1, j'ai laissé passé un peu de temps pour aller voir. Et aujourd'hui, surprise, ce HDD ne retourne plus aucun secteur défectueux, comme si les deux secteurs en question étaient redevenus lisibles tout seuls (sur ce HDD, la variable smart 5 Reallocated_Sector_Ct est à zéro depuis la nuit des temps, le reste encore jusqu'à aujourd'hui, ces deux secteurs n'ont donc pas été réalloués).
Concernant des défauts signalés par la variable smart 198 Offline_Uncorrectable, voir ces deux secteurs "retomber en marche" tout seuls me parait curieux. Il me semble que cette variable s'incrémente seulement quand un secteur est tellement chroniquement illisible, que le firmware ne peut procéder à son remplacement automatique par un secteur de réserve, n'est-ce pas ? Si on veut forcer sa réallocation, il est alors nécessaire d'intervenir à la main à coup de hdparm --yes-i-know-what-i-am-doing --write-sector.
Qu'en pensez-vous ?
Par précaution, j'ai lancé un selftest étendu (long) sur ce HDD, il est bon à donner le numéro du premier secteur physique illisible rencontré. Au moment de rédiger ce mail, le test n'en est encore qu'à 50% de la surface du disque, les paris restent ouverts. Au doigt mouillé, je suis d'avis qu'il ne trouvera plus aucune erreur... mais pourquoi ? Curieuse rémission causées par des variations de température ? Ne rien avoir à corriger n'est pas désagréable, à condition que smart ne dise pas que tout va bien, quand ce n'est pas en réalité le cas.
--
Frédéric Dumas
f.dumas at ellis.siteparc.fr
More information about the gull
mailing list