[technique] DELL R720

Sébastien Dinot sebastien.dinot at free.fr
Mar 22 Sep 09:29:32 CEST 2020



----- Mail original -----
> Je n’ai pas d’expérience en production sur du RAID6, mais si tu me
> confirmes que cela juste marche et que ce n’est pas la misère quand
> un disque grille, ça me va.

Mon retour d'expérience a ses limites : autant je ne compte plus le nombre de volumes RAID5 que j'ai dû reconstruire suite à la défaillance d'un disque, autant le hasard fait que je n'ai jamais eu à reconstruire un volume RAID6. Cela n'a rien à voir avec la version du RAID utilisé, mais avec le fait que la durée de vie des projets pour lesquels j'ai créé des volumes RAID6 n'a pas excédé 3 ans. À contrario, certains des serveurs dont je m'occupe et qui utilisent du RAID5, tournent depuis 10 ans et sont extrêmement sollicités. Dans ces conditions, la panne de plusieurs disques au cours de la durée de vie du serveur est quasiment inéluctable.

Il parait que la reconstruction d'un volume RAID6 prend « bien plus de temps » que celle d'un volume RAID5 de capacité équivalente. Je n'ai aucune information précise.

Ceci étant, je devine que la plupart des utilisateurs préfèrent voir leur VM indisponible pendant une journée et retrouver in fine leurs données, plutôt que de récupérer leur VM plus rapidement et de jouer à la roulette russe avec leurs données.

Pourquoi parle-je de « roulette russe » avec du RAID5 ? Simplement parce que l'expérience m'a montré que si un second disque a tendance à cramer au pire moment (i.e. alors que nous sommes en train de reconstruire le volume suite à la défaillance d'un premier disque), ce n'est pas un hasard : quand on achète un serveur de stockage, on achète en même temps un lot de disques qui sont probablement sortis de la chaine de production en même temps et présentent un risque accru de souffrir des mêmes défauts (ils sont constitués de pièces issues elles aussi des mêmes lots). En outre, ils ont été branchés en même temps et ont été utilisés de la même manière au sein du volume RAID, ils ont donc le même état de vieillissement lorsqu'un premier commence à flancher. Or, la reconstruction d'un volume RAID « stresse » beaucoup ces disques, d'autant plus si on commet l'erreur de ne pas mettre hors ligne le serveur pendant la reconstruction. Et la probabilité de défaillance d'un second disque à ce moment-là est accrue.

C'est d'ailleurs pour cela que lorsque je dois reconstruire un volume RAID, je mets le serveur hors ligne, même si tout le monde assure qu'un volume RAID1/5/6 peut continuer à fonctionner pendant la reconstruction. La reconstruction n'est pas une tâche anodine, tant qu'elle n'est pas achevée, le volume RAID est fragilisé, il faut le ménager et tant pis pour l'interruption de service.

Mais tous mes clients ne sont pas prêts à payer le surcoût que représente le RAID6 (surtout avec des disques SAS rapides et de grande capacité). Du coup, nous nous contentons souvent de RAID5 et d'une bonne sauvegarde.

Sébastien


-- 
Sébastien Dinot, sebastien.dinot at free.fr
https://www.palabritudes.net/
Ne goûtez pas au logiciel libre, vous ne pourriez plus vous en passer !




Plus d'informations sur la liste de diffusion technique