[iot] [incident loraserver] services opérationnels
Nicolas Gonzalez
nicolas at ngonzalez.fr
Lun 25 Mai 22:14:09 CEST 2020
Bonjour à tous,
L'incident survenu en fin de semaine dernière est clos et les services
IoT sont de nouveau opérationnels.
L'incident concerne un onduleur qui a provoqué une micro-coupure
entraînant le redémarrage du routeur de l'association et d'une partie du
cluster de virtualisation où sont hébergés nos services.
Lors du redémarrage des machines il s'est avéré que l'hyperviseur sur
lequel sont hébergés les machines virtuelles IoT avait sa pile de BIOS
hors d'usage ce qui a entraîner une perte des paramètres de
configuration (poweron failure & boot sur ssd).
Je suis intervenu aujourd'hui à TLS00 et j'ai changé la pile du bios et
redémarré le nœud du cluster. Lors de la perte de ce nœud du cluster,
nous avons perdu l'accès au management du cluster qui reste après
investigations encore inaccessible.
Une migration va être programmée afin de sortir de la technologie de
virtualisation actuelle (openstack) pour passer directement sur du libvirtd.
Je profite de ce mail pour vous rappeler la coupure électrique de ce
jeudi 28 matin afin de réaliser des travaux sur les installations. Je
vous conseille vivement d'éteindre proprement vos serveurs en
hébergement afin de ne pas subir de dégâts.
Je tiens à vous remercie pour votre attachement à ce projet et suis à
votre disposition pour de plus amples informations.
Amicalement,
ngonzalez
Plus d'informations sur la liste de diffusion iot