[technique] Intervention cluster Ceph 16/01/2019

Mer 16 Jan 07:51:26 CET 2019

Bonjour,

Nous avons procéder hier au remplacement de 3 disques HS du cluster et 
au rajout d'un onduleur.

Lors du remplacement d'un des disques sur la machine g5, celle-ci a 
rebooté de façon inattendu rebootant quelque VMs (en peu avant 12h):

* scriptbox.tetaneutral.net
* himalia.tetaneutral.net
* rodo.tetaneutral.net
* canalsud.tetaneutral.net
* gllm.tetaneutral.net

Malheureusement les VMs ne sont pas reparti suite au reboot (IO error 
dans les VMs alors que les disque étaient OK et clean vu de 
l’extérieur).

Après pas mal de recherche, ce matin, j'ai trouvé que lors d'une mise à 
jour nous avons loupé la mise à jour de permissions des clients ceph [1]
(en meme temps y'avait rien sur le sujet dans les release notes et la 
procédure d'upgrade...).

Ceci empêchait qemu de supprimer le précédent lock en écriture des 
disques de ces VMs, provoquant les erreurs.

Après avoir appliqué les nouvelles permissions, j'ai rebooté les 5 VMs 
qui sont reparti normalement.

Ensuite pendant le déplacement de certaines machines sur le nouvelles 
onduleur, g11 n'a pas voulu redémarrer, nous avons du remplacer 
l'alimentation.
Quand la machine a redémarré, nous nous sommes pas aperçu de suite que 
un des disques n'était plus détecté (surement mal reconnecté).

Le cluster restera en mode dégradé jusqu'à la prochaine intervention 
(peu être Vendredi), vu le nombre de disques du cluster ceci n'aura pas 
d'impact sur la prod.

A+,
Mehdi

[1] 
http://lists.ceph.com/pipermail/ceph-users-ceph.com/2017-September/020693.html