Remplacer un disk RAID5 par un clone avant reconstruction

Remplacer un disk RAID5 par un clone avant reconstruction - Disque dur - Hardware

Marsh Posté le 28-08-2022 à 17:24:57    

Bonjour,
 
J'ai un NAS QNAP T431, avec 4 HDD 3Go montés en RAID5.
 
2 disques sont en alerte SMART (un premier, suivi très rapidement d'un second avant que je ne puisse remplacer le premier).
Cela cause un ralentissement phénomal sur les accès disque.
J'ai réussi à bascculer en mode maintenance, j'arrive à me connecter en SSH, voir même en accès web à la console.
J'essaie depuis de copier les données sur un HDD externe (5Go), mais la copie se fait fichier par fichier... je dois en avoir pour 120 ans.
 
J'ai lancé un test complet des disques 1 & 2 incriminés : très longs, et in fine non aboutis car le refraichissement de la page au bout d'un moment fait perdre le niveau d'avancement sur l'application de monitoring QNAP (pourtant, une console + to indique que le process badblocks concerné tourne bien en tâche de fond, 15% du CPU.
 
La reconstruction du volume s'est lancée (a mon avis en autolatique ...) mais m'indique près de 2400 pour venir à bout !
 
Question : que vaut-il mieux faire dans l'objectif de sécuriser la donnée, même si ça prend plus de temps ?
 
1] a) lancer la reconstruction et attente, puis b) changer un disque et relancer la reconstruction, puis idem pour le second disque ?
2] a) retirer un premier disque déffecteux b) le clôner par ailleurs via d'autres systèmes (soit un système hard auto si jamais ça marche, soit via un logiciel de création d'images de diques), puis c) relancer la reconstruction ? ou idem en clonant les deux disques deffecteux, puis relançant la reconstruction ...
3] continuer à tenter de copier les données, même si ça doit prendre 20 j en continu.
 
Merci d'avance de votre retour.
 
 
 
 


---------------
Cordialement, Pierre
Reply

Marsh Posté le 28-08-2022 à 17:24:57   

Reply

Marsh Posté le 28-08-2022 à 18:19:19    

pdelap1 a écrit :

1] a) lancer la reconstruction et attente, puis b) changer un disque et relancer la reconstruction, puis idem pour le second disque ?
2] a) retirer un premier disque déffecteux b) le clôner par ailleurs via d'autres systèmes (soit un système hard auto si jamais ça marche, soit via un logiciel de création d'images de diques), puis c) relancer la reconstruction ? ou idem en clonant les deux disques deffecteux, puis relançant la reconstruction ...
3] continuer à tenter de copier les données, même si ça doit prendre 20 j en continu.


Ne prends pas ma réponse pour un conseil, mais naïvement je dirais le 1 ou le 3, mais le 1 en premier.
En commençant par changer le disque qui est tombé en premier, sauf si le deuxième présente plus d'erreurs, à voir.
 
Ton RAID5 fait 3To ou chacun des disques fait 3To ?
Je ne ferais pas de clonage disque à disque, mais de volume à volume/disque. Ton RAID fait xTo, tu trouves un disque de minimum xTo et tu fais une image de ton volume RAID.
En gros ne sors pas un disque de la grappe, ça me semble bancal.


---------------
Rien pour le moment
Reply

Marsh Posté le 28-08-2022 à 19:59:10    

pdelap1 a écrit :

Question : que vaut-il mieux faire dans l'objectif de sécuriser la donnée, même si ça prend plus de temps ?
 
1] a) lancer la reconstruction et attente, puis b) changer un disque et relancer la reconstruction, puis idem pour le second disque ?
2] a) retirer un premier disque déffecteux b) le clôner par ailleurs via d'autres systèmes (soit un système hard auto si jamais ça marche, soit via un logiciel de création d'images de diques), puis c) relancer la reconstruction ? ou idem en clonant les deux disques deffecteux, puis relançant la reconstruction ...
3] continuer à tenter de copier les données, même si ça doit prendre 20 j en continu.


0) Avoir un backup des données.
Le RAID est un système génial pour augmenter la disponibilité des données, en compensant temporairement la plupart des défaillances possibles d'un disque dur, et rien de plus.
La démocratisation du RAID via les NAS, souvent présentés comme une solution de stockage plus fiable à tous les niveaux, une sorte de "backup de fait", ne donne qu'une illusion de sécurité.
 
Sinon, pour répondre directement à ta question, je dirais 3 sans hésiter !
 
Parce que j'ai déjà définitivement cassé deux fois un array RAID, un RAID1 et un RAID5, juste en hotswappant un disque dur.
Le problème, si tu as un système qui tourne depuis longtemps où un disque en RAID meurt, et particulièrement si les disques ont le même âge, c'est que lors de la reconstruction, tu vas mettre une charge plus élevée sur les disques restants, et du coup, la probabilité que tu aies une deuxième défaillance à ce moment explose.
 
Après, si tu vois déjà un ralentissement majeur en lecture sur un RAID3 en mode dégradé avec deux disques à la place de trois, ça sent vraiment pas bon ... :/

Message cité 1 fois
Message édité par 404 Not Found le 28-08-2022 à 20:00:43
Reply

Marsh Posté le 28-08-2022 à 20:35:17    

404 Not Found a écrit :

Sinon, pour répondre directement à ta question, je dirais 3 sans hésiter !


Ah oui, ça parait tellement plus logique de faire de la lecture plutôt que tenter une reconstruction.
{mode blond frappage de tête contre mur] :o


---------------
Rien pour le moment
Reply

Marsh Posté le 28-08-2022 à 23:17:01    

Merci pour vos retours.
Pour répondre c'est 4*3To comme indiqué soit un peu moins de 6 Go en RAID5 dans mon cas.
La copie continue et s'est sensiblement accélérée depuis, mais je n'en suis qu'à 350 Go en 1/2 journée.
Le test du premier HD est presqeu fini, avec 3.600 secteurs défectueux. Et sur le second je ne me souviens plus si le test était allé au bout, mais il y avait 30.000 secteurs déffectueux.
Par ailleurs la reconstruction du RAID s'est lancée en parallèle et avance, avec plus que 760h de travail ... Est-il possible d'interrompre cette reconstruction sans tirer une balle dans le NAS ?
J'entends bien l'argument de lecture plutôt qu'écriture, qui me semble pertinent ...

Reply

Marsh Posté le 28-08-2022 à 23:52:12    

En fait mon RAID est un RAID6, du coup en théorie je devrai pouvoir récupérer même si j'ai deux disques KO, correct ?
Du coup ça vaut peut être mieux que je change deux disques, plutôt que de copier des milliers de fichiers dont un pacquet risque d'être corrompu ?
Ou bien le RAID 6 me donnera toujours le bon fichier corrigé ?

Reply

Marsh Posté le 29-08-2022 à 05:24:47    

pdelap1 a écrit :

La copie continue et s'est sensiblement accélérée depuis, mais je n'en suis qu'à 350 Go en 1/2 journée.
Le test du premier HD est presqeu fini, avec 3.600 secteurs défectueux. Et sur le second je ne me souviens plus si le test était allé au bout, mais il y avait 30.000 secteurs déffectueux.
Par ailleurs la reconstruction du RAID s'est lancée en parallèle et avance, avec plus que 760h de travail ... Est-il possible d'interrompre cette reconstruction sans tirer une balle dans le NAS ?
J'entends bien l'argument de lecture plutôt qu'écriture, qui me semble pertinent ...


Tu as lancé une copie, en même temps un test SMART, et le NAS reconstruit le RAID entre la poire et le café ?
Chelou ton NAS.
 
Sinon, 30K secteurs défectueux c'est  [:redgard_archeos:4]  
Le NAS aurait du découvrir ces secteurs bien plus tôt, ça ressemble plus à une erreur de redondance qui s'est répercutée sur deux disques qu'une vraie erreur SMART.
Mais bon je suis loin d'être expert HDD.
Il me semble qu'un état SMART qui rapporte un seul secteur défectueux est déjà en "prudence", alors 30K... :o
 
Aucune idée pour le RAID 6 sur 4 disques.


---------------
Rien pour le moment
Reply

Marsh Posté le 29-08-2022 à 09:14:22    

Bonjour,
 
Es tu que toutes les données sont copiables, dans le sens "droits d'accès" ?
 
Tu le fais en étant "root" ?
 
En plus, comme il s'agit surement d'un OS à base de Linux, tu peux aussi avoir des problèmes avec certains types de fichiers (notamment le répertoire /proc ou /dev), sans parler des liens symboliques.
 
Ou alors tu ne cherches à sauvegarder que des données perso (sans OS + config). Dans ce cas, cela devrait être faisable. Si c'est le cas, vérifies aussi que QNap n'offre pas la possibilité de sauvegarder la configuration de ton NAS (Synology le propose, donc Qnap surement aussi).
 
Ainsi si tu dois tout réinitialiser ton NAS (donc OS compris), cela peut être pratique de pouvoir alors restaurer ta configuration actuelle au lieu de tout de se la retaper.


Message édité par wgromit le 29-08-2022 à 09:17:20
Reply

Marsh Posté le 29-08-2022 à 11:21:26    

Uniquement des données perso.
J'ai par ailleurs sauvegardé la config effectivement.

Reply

Marsh Posté le 29-08-2022 à 12:39:52    

Suite à investigation, j'ai trouvé une réponse argumentée.
1/ Privilégier un remplacement à chaud pour éviter d'arrêter les disques durs (ou passer en maintenance, les HD ne s'arrêtent pas forcément ...)
2/ Pour sécuriser la donnée, il vaut mieux remplacer les disques 1 par un (car en RAID 6), ce qui serait plus rapide et sûr globalement.
3/ Idéalement, si par ailleurs le NAS était arrêté et les HD aussi, privilégier une copie des disques opérationnels mais avec des erreurs SMART via gddrescue, et utiliser ces derniers lors de l'opération - je n'ai pas procédé ainsi n'étant pas très à l'aise sur la qualité photographique de la copie dans le cadre d'un RAID ...
4/ Replacer un premier disque et reconstruire. Si le deuxième tombe en panne, on reste sécurisé car RAID6. Et cette phase est plus rapide que de reconstruire les deux à la fois.
5/ une fois le premier reconstruit, remplacer le second et reconstruire ; à ce moment là si un autre disque tombe en panne, on reste tolérant à la panne car le premier a été reconstruit.
 
Et si on a une bonne sauvegarde du tout, et qu'on est tolérant à l'indisponibilité du NAS pendant la récupération, alors on peut reconstruire directement les deux HD d'un coup, mais ce n'est pas mon cas.
 
Le forum concerné : https://qastack.fr/server/306526/ra [...] -at-a-time

Reply

Marsh Posté le 29-08-2022 à 12:39:52   

Reply

Marsh Posté le 30-08-2022 à 16:02:07    

Si ton RAID de 4 disques a 2 disques de spare tu dois pouvoir enlever les 2 disques en warning de ton NAS, celui ci devrait normalement retrouver ses perfs de lecture pour faire ta sauvegarde, mais tu n'as plus de spare le temps de la sauvegarde
Une fois sauvegardé tu lances tranquillement tes reconstructions en remplacant les disques a chaud.
 
Je l'ai fait recemment avec mon raid de 2 disques en mirroir ...  
- j'ai démonté mon disque défecteux
- j'ai fait ma sauvergarde avant reconstruction ( incrementielle car je fais une full tous les mois sur un autre disque monté sur un autre pc )
- j'ai changé le disque et reconstruit
 
Honnetement j'etais comme toi au départ, 4 disques avec 2 spares
Dans mon nas les disques WD RED ne tiennent que de 3 a 5 ans
C'est plus rentable d'avoir le moins possible de disque de spare et un gros disque de sauvegarde a l'extérieur du NAS ( le mien est allumé une fois par semaine )
Si tes sauvegardes sont bien effectuées
Mais il n'y a que toi qui puisse juger de l'importance de la disponibilité des données H24 :)


Message édité par miksair le 30-08-2022 à 16:03:14
Reply

Marsh Posté le 31-08-2022 à 10:18:44    

Merci de ton retour.
 
Sauvegarde des données effectuée.
 
Il reste encore un peu de reconstruction RAID6 en cours (1 à 2h sans rien faire d'autre).
 
Le test des disques + début de reconstruction du raid a dû influer, en identifiant les secteurs à problème et corrigeant les erreurs raids critiques, car la copie est devenue nettement plus rapide au bout d'un moment ...
Tu as raison, en enlevant les 2 disques en smart KO, ça aurait accéléré ... au prix de ne plus avoir aucun filet, ce que je voulais éviter, n'étant pas serein sur la complétude des sauvegardes.
 
En durée de vie, mes HD (red ou éq) durent plutôt 5 ans de mon côté, sans éteindre jamais le NAS - surtout pour permettre une sauvegarde à distance des données des mes ordis et téléphones ...
 
Merci, je clos le sujet - modérateur à corriger le titre pour précider RAID6 et non RAID5, tel que demandé.

Reply

Marsh Posté le 31-08-2022 à 14:04:45    

tu peux éditer ton 1er message (pas édition rapide, l'autre)
 
tu auras accès au titre ;)


---------------
Infographiste 3D & Post-Production - Freelance
Reply

Marsh Posté le 31-08-2022 à 16:49:58    

Effectivement, en cliquant sur cet icône https://forum-images.hardware.fr/themes_static/images_forum/1/edit.gif dans le premier message tu pourras corriger ton titre.


Message édité par TotalRecall le 31-08-2022 à 16:50:33

---------------
Topic .Net - C# @ Prog
Reply

Marsh Posté le 27-12-2022 à 10:41:47    

Bonjour- Désolé, je n'apporterai pas de réponse positive- Simplement une info: Sur équipement, exter au PC,  ''2 Big Quadra 2T'' ( 2terra sur chacun des 2 disk)  j'ai planté le RAID1 ( safe miroir ), en modifiant le nom du disk N°2- Au redémarrage, le Quadra s'est mis en '' reconstruction du RAID1 - Cela fait maintenant plus de 700h . Merci pour vos remarques, à adresser à un non spécialiste ! J'ai récupéré mes data, en arrêtant le quadra, retiré le disk N°2 - Alors, j'ai pu lire et sauvegarder mes data- Mais en remettant le disk N°2, impossible d'avoir accès aux data, le quadra démarre en reconstruction.( qui semble se faire '' bit à bit'' ) - Voilà mon expérience sur le temps nécessaire à la reconstruction . Bonne journée-  acharmand -

Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed