[technique] Incident disque sur h6 / service VM

Laurent GUERBY laurent at guerby.net
Mer 11 Juil 12:06:57 CEST 2012


Bonjour,

J'ai changé le disque de h6 mardi 20120710 entre 18h
et 19h30, j'en ai profité pour retirer le disque
cassé de h4.

Le cluster ganeti est de nouveau en fonctionnement
nominal avec toutes les VM redondées par DRBD. Les
VM des adhérents n'ont pas été impactée.

Les deux disques cassés (h4 a moi et h6 a la FSF France) sont en
garantie, je vais faire un RMA Seagate dessus  :

6YD0FVH1    9VT166-301    In Warranty   Expiration 22-Sep-2013    In Warranty   
5YD354MZ    9VT166-301    In Warranty   Expiration 13-Apr-2014    In Warranty

Au niveau des garanties des disques de 2 TB actuellement en production
elles sont entre 12 et 20 mois :

h1 /dev/sdb vg1 (spare) 5YD155BJ       9VT166-300       In Warranty   Expiration 17-Feb-2014    In Warranty   
h1 /dev/sdc kvmvg       WCAZA2896520   WD20EARS-00MVWB0 IN WARRANTY 01/19/2014 (january)
h4 /dev/sdb kvmvg       WMAZA0732072   WD20EARS-00MVWB0 IN WARRANTY 10/02/2013 (october)
h5 /dev/sdb kvmvg       6YD09WBP       9VT166-301       In Warranty   Expiration 15-Apr-2014    In Warranty   
h6 /dev/sdd kvmvg       S2H7J9GC318550 HD204UI          In Warranty   Expiration 29-Jun-2013    In Warranty
h2 /dev/sda root        WCAZA2916786   WD20EARS-00MVWB0 IN WARRANTY 01/19/2014 (january)

Pour référence les URLs de verification de garantie constructeur
utilisées :

http://support.seagate.com/warranty
https://westerndigital.secure.force.com/WarrantyCheck?lang=en

La documentation de la gestion d'une casse disque avec ganeti est
ici :

http://chiliproject.tetaneutral.net/projects/tetaneutral/wiki/Cluster_Ganeti#Gestion-dun-disque-en-IO-error

Il reste un point a eclaircir sur la reconnaissance d'un disque
physiquement enlevé de la machine : le /dev/sdX du disque
cassé est toujours present dans /proc/partitions et quand
j'ai remis un disque neuf sur le meme port SATA que celui
cassé le noyau n'a pas reconnu l'insertion de disque, j'ai
du le mettre sur un autre port SATA pour qu'il soit reconnu. 
Quelqu'un a une idée ?

Sinon sur le changement a chaud le principal probleme
a été de sortir le disque : sur la combinaison boitier / carte
mere de h4 le chemin de sortie des disques passe
directement sur les connecteurs SATA de la carte mere,
j'ai eu de la chance de pouvoir le sortir sans avoir
a debrancher le SATA du disque systeme (et donc eteindre la machine).
A etudier pour le prochain achat boitier + carte mere,
il y a des boitiers avec les baies 3.5 qui sortent
vers la porte et non vers la carte mere, des carte
mere avec des SATA mieux placés ou enfin des racks 5.25
hot swap tool-less (que j'utilise pour mes machines a la maison).

Sincèrement,

Laurent

On Mon, 2012-07-09 at 00:47 +0200, Laurent GUERBY wrote:
> Bonsoir,
> 
> Le disque de 2 TB de h6 a laché ce dimanche peu apres 22h.
> C'est le meme modele de disque que celui de h4 qui a laché jeudi,
> la aussi pas de température exceptionnelle, peut-etre
> une mauvaise serie.
> 
> Le fonctionnement des VM n'est pas impacté mais
> une partie des VM n'est plus redondée.
> 
> h6 n'a pas de disque de spare, il en reste un sur h1
> mais si quelqu'un a un disque de 2TB et est
> pret a nous le laisser merci de me contacter.
> 
> Je suis lundi a Perpignan pour les soutenances
> de stages, suite mardi.
> 
> Sincèrement,
> 
> Laurent
> 





Plus d'informations sur la liste de diffusion technique