[tetaneutral] Incident machine virtuelle et redémarrages VMs
Aymeric
mulx at aplu.fr
Thu Sep 29 13:31:58 CEST 2022
Bonjour,
Hier soir vers 21h une machine du cluster a été relancé, volontairement,
pour un soucis de RAM défectueuse (nous sommes au courant depuis
quelques semaines, les barrettes de RAM neuve sont en cours de
livraison). Le redémarrage permet, grâce a une option passé au noyaux
Linux, de bloquer les zones défectueuses et d'éviter des problèmes de
corruption.
Suite a ce redémarrage la quasi totalité des disques de cet hyperviseur
ne sont pas revenu dans le cluster de stockage.
La cause a été identifié vers 22h, suite a une précédente montée de
version il faut créer un fichier json pour chaque disque qui a été
initialisé par l'ancienne version de ceph (si c'est documenté dans les
procédures de mise à jour, nous sommes passé a côté).
Le temps de corriger, il y'a eu pas mal de lenteur sur les VMs et des
problèmes d'accès disques plantant beaucoup de VMs.
Nous avons vu cet effet de bord depuis ce matin par les alertes de
monitoring et les (nombreuses) demandes sur le chan de VM planté.
A noter que normalement la perte d'une machine n'aurait pas du avoir cet
effet sur l'ensemble des VMs.. pour l'instant aucune idée sur la raison
d'un tel impact.
Pour aller plus vite et ne pas faire au cas par cas, toutes les VMs
viennent d'être relancé.
Donc si votre VM ne répond toujours pas a partir de 13h30, merci de nous
prévenir.
Désolé pour la gêne :(
A noter qu'une intervention sera effectué pour remplacer les barrettes
de RAM sur g1 ... on va espérer que ça ne génère pas le même souk.
Aymeric pour tetaneutral.net
More information about the tetaneutral
mailing list