[technique] Coupure électrique non prévue a eu lieu à TLS00 le jeudi 12/07/2018 à 5h00.

Ven 13 Juil 22:39:41 CEST 2018

Bonsoir,

Une coupure électrique non prévue a eu lieu à TLS00 le jeudi 12/07/2018
à 5h00.

Cette coupure a:
* fait rebooter des switches TTNN de la baie jolie brain (donc coupure
  en DC ondulé/groupe aussi)
* fait sauter les disjoncteurs de la salle tetaneutral.net a TLS00
* cramé la batterie d'un de nos onduleur

Nicolas Gonzalez (eZag) est allé le matin même à TLS00, il a

* remplacé l'onduleur HS par celui de spare
* rallumé toutes les machines/switches éteintes

Malheureusement la machine G11 ne s'allumais plus, et un disque de n7
était HS.

Nicolas a essayé de changer l'alim mais ce n'était pas cela.

La machine G11 contiens 4 disques et 2 SSDs

Vers 12h, après que le gros du recovery Ceph soit passé, j'ai relancé
les VMs du cluster.

Vers 19h, nous avons perdu un nouveau disque (sdb) sur G1.

Toutes les VMs qui étaient sur disques et pas sur SSDs ont freezé à ce
moment la.

2 placement group (PG) Ceph sur les 4096  n'avaient plus de quorum (2
sur 3 replicats des data) pour assurer que nous n'allons pas perdre de
donner sur ces PGs.

Ceph étant protecteur des données, il freeze les IOs des VMs.

Ceph attends que on lui confirme les données perdues ou que les OSDs
manquant reviennent.

Ne pouvant réssucité les disques mort de g1 ert N7. Il nous fallait
absoluement les disques de G11.

De plus les disques restant du Cluster ne permettait pas à Ceph
d'acueillir tous les replicats manquant.

Ceph nous a rempli plusieurs disques à 100% pour garantir ses replicats.
Mais quand un disque arrive à 100%.
Ceph freeze les IOs de toutes les VMs.

Toutes les VMs ont été stoppées vers 21h.

Par chance nous avions remplacé la VM apt.tetaneutral.net par une
machine physique (NUC avec SSD 4 TB)  ce qui a permis de supprimer
quelques objets Ceph pour le faire repartir.

Vers 23h, j'ai redémaré toutes les VMs. Mais uniquement les VMs sur SSDs
ont refonctionnées correctement.

Le lendemain vendredi 13/07/2018, Nicolas est retourné à TLS00 pour
récupérer G11 et l'a réparé.
Le problème venait des boutons de la tour qui ne marchait plus...

Vers 19h, Nicolas est retourné à TLS00 pour rebrancher G11.

Le cluster Ceph a retrouvé les données manquantes et est reparti
correctement.

Le recovery "normal/habituelle" de Ceph est cours:
https://nagios.tetaneutral.net/grafana/d/CSs7ydkmk/ceph-cluster?refresh=1m&orgId=1&from=1531340909134&to=1531513709134&var-interval=1m

Si votre VM ne fonctionne toujours pas, n'hésitez pas à envoyer un mail
à question at tetaneutral.net.

Un grand merci à Nicolas pour les 3 interventions à TLS00 !

-- 
Mehdi Abaakouk
mail: sileht at sileht.net
irc: sileht
-------------- section suivante --------------
Une pièce jointe autre que texte a été nettoyée...
Nom: signature.asc
Type: application/pgp-signature
Taille: 898 octets
Desc: non disponible
URL: <http://lists.tetaneutral.net/pipermail/technique/attachments/20180713/273b6804/attachment.sig>