[tetaneutral] Incident machine virtuelle et redémarrages VMs

Thu Sep 29 13:31:58 CEST 2022

Bonjour,

Hier soir vers 21h une machine du cluster a été relancé, volontairement, 
pour un soucis de RAM défectueuse (nous sommes au courant depuis 
quelques semaines, les barrettes de RAM neuve sont en cours de 
livraison). Le redémarrage permet, grâce a une option passé au noyaux 
Linux, de bloquer les zones défectueuses et d'éviter des problèmes de 
corruption.

Suite a ce redémarrage la quasi totalité des disques de cet hyperviseur 
ne sont pas revenu dans le cluster de stockage.
La cause a été identifié vers 22h, suite a une précédente montée de 
version il faut créer un fichier json pour chaque disque qui a été 
initialisé par l'ancienne version de ceph (si c'est documenté dans les 
procédures de mise à jour, nous sommes passé a côté).
Le temps de corriger, il y'a eu pas mal de lenteur sur les VMs et des 
problèmes d'accès disques plantant beaucoup de VMs.

Nous avons vu cet effet de bord depuis ce matin par les alertes de 
monitoring et les (nombreuses) demandes sur le chan de VM planté.

A noter que normalement la perte d'une machine n'aurait pas du avoir cet 
effet sur l'ensemble des VMs.. pour l'instant aucune idée sur la raison 
d'un tel impact.

Pour aller plus vite et ne pas faire au cas par cas, toutes les VMs 
viennent d'être relancé.

Donc si votre VM ne répond toujours pas a partir de 13h30, merci de nous 
prévenir.

Désolé pour la gêne :(

A noter qu'une intervention sera effectué pour remplacer les barrettes 
de RAM sur g1 ... on va espérer que ça ne génère pas le même souk.

Aymeric pour tetaneutral.net