[technique] [INCIDENT] Onduleur eaton50 KO perte du routage tetaneutral.net 20170802 21h50 - 20170803 09h10
Laurent GUERBY
laurent at guerby.net
Jeu 3 Aou 11:29:28 CEST 2017
Bonjour,
Hiers soir mercredi 20170802 vers 21h50 a TLS00 l'onduleur eaton50 qui
alimente le routeur h7, le switch s52 et quelques autres machines
du cluster s'est mis en defaut ce qui a coupé le reseau tetaneutral.net
de l'exterieur. Sa charge avant l'incident etait de 40 a 50% d'apres
l'historique nagios.
Apres une discussion IRC a 0h15 Elie est allé a Myrys pour voir si on
pouvait redemarrer a distance le routeur h7 via les VLAN d'admin mais
le port vPro etant sur s52 qui etait offline cela n'a pas été possible.
Ce matin 20170803 a 8h45 Matthieu est allé a TLS00 et a constaté le
probleme sur l'onduleur eaton50 et l'a sorti du circuit ce qui a
rétabli le réseau pour les machines physiques.
Lors de la recovery ceph des disques se sont remplis et Mehdi a du
manuellement deplacer quelques données pour permettre au cluster ceph
de redemarrer, entre 10h et 11h les VM sont revenues progressivement en
ligne.
Un debut de liste de choses a faire pour l'immediat et un peu
plus long terme ici :
https://pad.tetaneutral.net/p/TODO2017
Merci a tou-te-s,
Sincerement,
Laurent
Plus d'informations sur la liste de diffusion technique