[technique] Coupure électrique non prévue a eu lieu à TLS00 le jeudi 12/07/2018 à 5h00.

Ven 13 Juil 23:24:26 CEST 2018

Bonsoir Mehdi,

Notre VM "sameswireless.tetaneutral.net" ne fonctionne pas.

Amicalement,

Fernando

Le 13/07/2018 à 22:39, Mehdi Abaakouk via technique a écrit :
> Bonsoir,
>
> Une coupure électrique non prévue a eu lieu à TLS00 le jeudi 12/07/2018
> à 5h00.
>
> Cette coupure a:
> * fait rebooter des switches TTNN de la baie jolie brain (donc coupure
>  en DC ondulé/groupe aussi)
> * fait sauter les disjoncteurs de la salle tetaneutral.net a TLS00
> * cramé la batterie d'un de nos onduleur
>
> Nicolas Gonzalez (eZag) est allé le matin même à TLS00, il a
>
> * remplacé l'onduleur HS par celui de spare
> * rallumé toutes les machines/switches éteintes
>
> Malheureusement la machine G11 ne s'allumais plus, et un disque de n7
> était HS.
>
> Nicolas a essayé de changer l'alim mais ce n'était pas cela.
>
> La machine G11 contiens 4 disques et 2 SSDs
>
> Vers 12h, après que le gros du recovery Ceph soit passé, j'ai relancé
> les VMs du cluster.
>
> Vers 19h, nous avons perdu un nouveau disque (sdb) sur G1.
>
> Toutes les VMs qui étaient sur disques et pas sur SSDs ont freezé à ce
> moment la.
>
> 2 placement group (PG) Ceph sur les 4096  n'avaient plus de quorum (2
> sur 3 replicats des data) pour assurer que nous n'allons pas perdre de
> donner sur ces PGs.
>
> Ceph étant protecteur des données, il freeze les IOs des VMs.
>
> Ceph attends que on lui confirme les données perdues ou que les OSDs
> manquant reviennent.
>
> Ne pouvant réssucité les disques mort de g1 ert N7. Il nous fallait
> absoluement les disques de G11.
>
> De plus les disques restant du Cluster ne permettait pas à Ceph
> d'acueillir tous les replicats manquant.
>
> Ceph nous a rempli plusieurs disques à 100% pour garantir ses replicats.
> Mais quand un disque arrive à 100%.
> Ceph freeze les IOs de toutes les VMs.
>
> Toutes les VMs ont été stoppées vers 21h.
>
> Par chance nous avions remplacé la VM apt.tetaneutral.net par une
> machine physique (NUC avec SSD 4 TB)  ce qui a permis de supprimer
> quelques objets Ceph pour le faire repartir.
>
> Vers 23h, j'ai redémaré toutes les VMs. Mais uniquement les VMs sur SSDs
> ont refonctionnées correctement.
>
> Le lendemain vendredi 13/07/2018, Nicolas est retourné à TLS00 pour
> récupérer G11 et l'a réparé.
> Le problème venait des boutons de la tour qui ne marchait plus...
>
> Vers 19h, Nicolas est retourné à TLS00 pour rebrancher G11.
>
> Le cluster Ceph a retrouvé les données manquantes et est reparti
> correctement.
>
> Le recovery "normal/habituelle" de Ceph est cours:
> https://nagios.tetaneutral.net/grafana/d/CSs7ydkmk/ceph-cluster?refresh=1m&orgId=1&from=1531340909134&to=1531513709134&var-interval=1m
>
>
> Si votre VM ne fonctionne toujours pas, n'hésitez pas à envoyer un mail
> à question at tetaneutral.net.
>
> Un grand merci à Nicolas pour les 3 interventions à TLS00 !
>
>
>
> _______________________________________________
> technique mailing list
> technique at lists.tetaneutral.net
> http://lists.tetaneutral.net/listinfo/technique

-------------- section suivante --------------
Une pièce jointe HTML a été nettoyée...
URL: <http://lists.tetaneutral.net/pipermail/technique/attachments/20180713/8ab5f84d/attachment.htm>
-------------- section suivante --------------
Une pièce jointe autre que texte a été nettoyée...
Nom: signature.asc
Type: application/pgp-signature
Taille: 473 octets
Desc: OpenPGP digital signature
URL: <http://lists.tetaneutral.net/pipermail/technique/attachments/20180713/8ab5f84d/attachment.sig>