[technique] [INCIDENT] Onduleur eaton50 KO perte du routage tetaneutral.net 20170802 21h50 - 20170803 09h10

Laurent GUERBY laurent at guerby.net
Jeu 3 Aou 11:29:28 CEST 2017


Bonjour,

Hiers soir mercredi 20170802 vers 21h50 a TLS00 l'onduleur eaton50 qui
alimente le routeur h7, le switch s52 et quelques autres machines
du cluster s'est mis en defaut ce qui a coupé le reseau tetaneutral.net
de l'exterieur. Sa charge avant l'incident etait de 40 a 50% d'apres
l'historique nagios.

Apres une discussion IRC a 0h15 Elie est allé a Myrys pour voir si on
pouvait redemarrer a distance le routeur h7 via les VLAN d'admin mais
le port vPro etant sur s52 qui etait offline cela n'a pas été possible.

Ce matin 20170803 a 8h45 Matthieu est allé a TLS00 et a constaté le
probleme sur l'onduleur eaton50 et l'a sorti du circuit ce qui a
rétabli le réseau pour les machines physiques.

Lors de la recovery ceph des disques se sont remplis et Mehdi a du
manuellement deplacer quelques données pour permettre au cluster ceph
de redemarrer, entre 10h et 11h les VM sont revenues progressivement en
ligne.

Un debut de liste de choses a faire pour l'immediat et un peu
plus long terme ici :

https://pad.tetaneutral.net/p/TODO2017

Merci a tou-te-s,

Sincerement,

Laurent




Plus d'informations sur la liste de diffusion technique