[technique] Coupure électrique non prévue a eu lieu à TLS00 le jeudi 12/07/2018 à 5h00.

yarianlam lam at yarian.eu
Sam 14 Juil 19:29:41 CEST 2018


Un très très grand merci à l'équipe et à tout(e)s les bénévoles qui
s'investissent pour que cette plate-forme fonctionne.
Bravo
M.



Le 13/07/2018 à 23:39, PP A via technique a écrit :
> Un grand merci à tous les bénévoles qui se sont investis dans la remise
> en état de la plateforme TTNN après cette coupure.
> Et j'imagine que ça a pas du être très drôle non plus chez FS.
> 
> @+ 
> 
> Le ven. 13 juil. 2018 à 22:39, Mehdi Abaakouk via technique
> <technique at lists.tetaneutral.net
> <mailto:technique at lists.tetaneutral.net>> a écrit :
> 
>     Bonsoir,
> 
>     Une coupure électrique non prévue a eu lieu à TLS00 le jeudi 12/07/2018
>     à 5h00.
> 
>     Cette coupure a:
>     * fait rebooter des switches TTNN de la baie jolie brain (donc coupure
>       en DC ondulé/groupe aussi)
>     * fait sauter les disjoncteurs de la salle tetaneutral.net
>     <http://tetaneutral.net> a TLS00
>     * cramé la batterie d'un de nos onduleur
> 
>     Nicolas Gonzalez (eZag) est allé le matin même à TLS00, il a
> 
>     * remplacé l'onduleur HS par celui de spare
>     * rallumé toutes les machines/switches éteintes
> 
>     Malheureusement la machine G11 ne s'allumais plus, et un disque de n7
>     était HS.
> 
>     Nicolas a essayé de changer l'alim mais ce n'était pas cela.
> 
>     La machine G11 contiens 4 disques et 2 SSDs
> 
>     Vers 12h, après que le gros du recovery Ceph soit passé, j'ai relancé
>     les VMs du cluster.
> 
>     Vers 19h, nous avons perdu un nouveau disque (sdb) sur G1.
> 
>     Toutes les VMs qui étaient sur disques et pas sur SSDs ont freezé à ce
>     moment la.
> 
>     2 placement group (PG) Ceph sur les 4096  n'avaient plus de quorum (2
>     sur 3 replicats des data) pour assurer que nous n'allons pas perdre de
>     donner sur ces PGs.
> 
>     Ceph étant protecteur des données, il freeze les IOs des VMs.
> 
>     Ceph attends que on lui confirme les données perdues ou que les OSDs
>     manquant reviennent.
> 
>     Ne pouvant réssucité les disques mort de g1 ert N7. Il nous fallait
>     absoluement les disques de G11.
> 
>     De plus les disques restant du Cluster ne permettait pas à Ceph
>     d'acueillir tous les replicats manquant.
> 
>     Ceph nous a rempli plusieurs disques à 100% pour garantir ses replicats.
>     Mais quand un disque arrive à 100%.
>     Ceph freeze les IOs de toutes les VMs.
> 
>     Toutes les VMs ont été stoppées vers 21h.
> 
>     Par chance nous avions remplacé la VM apt.tetaneutral.net
>     <http://apt.tetaneutral.net> par une
>     machine physique (NUC avec SSD 4 TB)  ce qui a permis de supprimer
>     quelques objets Ceph pour le faire repartir.
> 
>     Vers 23h, j'ai redémaré toutes les VMs. Mais uniquement les VMs sur SSDs
>     ont refonctionnées correctement.
> 
>     Le lendemain vendredi 13/07/2018, Nicolas est retourné à TLS00 pour
>     récupérer G11 et l'a réparé.
>     Le problème venait des boutons de la tour qui ne marchait plus...
> 
>     Vers 19h, Nicolas est retourné à TLS00 pour rebrancher G11.
> 
>     Le cluster Ceph a retrouvé les données manquantes et est reparti
>     correctement.
> 
>     Le recovery "normal/habituelle" de Ceph est cours:
>     https://nagios.tetaneutral.net/grafana/d/CSs7ydkmk/ceph-cluster?refresh=1m&orgId=1&from=1531340909134&to=1531513709134&var-interval=1m
> 
>     Si votre VM ne fonctionne toujours pas, n'hésitez pas à envoyer un mail
>     à question at tetaneutral.net <mailto:question at tetaneutral.net>.
> 
>     Un grand merci à Nicolas pour les 3 interventions à TLS00 !
> 
>     -- 
>     Mehdi Abaakouk
>     mail: sileht at sileht.net <mailto:sileht at sileht.net>
>     irc: sileht
>     _______________________________________________
>     technique mailing list
>     technique at lists.tetaneutral.net <mailto:technique at lists.tetaneutral.net>
>     http://lists.tetaneutral.net/listinfo/technique
> 
> 
> 
> -- 
> Patrick
> 
> 
> _______________________________________________
> technique mailing list
> technique at lists.tetaneutral.net
> http://lists.tetaneutral.net/listinfo/technique
> 




Plus d'informations sur la liste de diffusion technique