[technique] [INCIDENT] Onduleur eaton50 KO perte du routage tetaneutral.net 20170802 21h50 - 20170803 09h10

yarianlam lam at yarian.eu
Jeu 3 Aou 11:56:27 CEST 2017


Le 03/08/2017 à 11:29, Laurent GUERBY via technique a écrit :
> Bonjour,

Et un très GRAND MERCI à tou.te.s pour votre temps et vos efforts
permanents pour maintenir un réseau de qualité et les serveurs en ligne
malgré toutes les impondérables pannes.

Lam

> 
> Hiers soir mercredi 20170802 vers 21h50 a TLS00 l'onduleur eaton50 qui
> alimente le routeur h7, le switch s52 et quelques autres machines
> du cluster s'est mis en defaut ce qui a coupé le reseau tetaneutral.net
> de l'exterieur. Sa charge avant l'incident etait de 40 a 50% d'apres
> l'historique nagios.
> 
> Apres une discussion IRC a 0h15 Elie est allé a Myrys pour voir si on
> pouvait redemarrer a distance le routeur h7 via les VLAN d'admin mais
> le port vPro etant sur s52 qui etait offline cela n'a pas été possible.
> 
> Ce matin 20170803 a 8h45 Matthieu est allé a TLS00 et a constaté le
> probleme sur l'onduleur eaton50 et l'a sorti du circuit ce qui a
> rétabli le réseau pour les machines physiques.
> 
> Lors de la recovery ceph des disques se sont remplis et Mehdi a du
> manuellement deplacer quelques données pour permettre au cluster ceph
> de redemarrer, entre 10h et 11h les VM sont revenues progressivement en
> ligne.
> 
> Un debut de liste de choses a faire pour l'immediat et un peu
> plus long terme ici :
> 
> https://pad.tetaneutral.net/p/TODO2017
> 
> Merci a tou-te-s,
> 
> Sincerement,
> 
> Laurent
> 
> _______________________________________________
> technique mailing list
> technique at lists.tetaneutral.net
> http://lists.tetaneutral.net/listinfo/technique
> 




Plus d'informations sur la liste de diffusion technique