[iot] [incident loraserver] services opérationnels

Nicolas Gonzalez nicolas at ngonzalez.fr
Lun 25 Mai 22:14:09 CEST 2020


Bonjour à tous,

L'incident survenu en fin de semaine dernière est clos et les services 
IoT sont de nouveau opérationnels.

L'incident concerne un onduleur qui a provoqué une micro-coupure 
entraînant le redémarrage du routeur de l'association et d'une partie du 
cluster de virtualisation où sont hébergés nos services.

Lors du redémarrage des machines il s'est avéré que l'hyperviseur sur 
lequel sont hébergés les machines virtuelles IoT avait sa pile de BIOS 
hors d'usage ce qui a entraîner une perte des paramètres de 
configuration (poweron failure & boot sur ssd).

Je suis intervenu aujourd'hui à TLS00 et j'ai changé la pile du bios et 
redémarré le nœud du cluster. Lors de la perte de ce nœud du cluster, 
nous avons perdu l'accès au management du cluster qui reste après 
investigations encore inaccessible.

Une migration va être programmée afin de sortir de la technologie de 
virtualisation actuelle (openstack) pour passer directement sur du libvirtd.

Je profite de ce mail pour vous rappeler la coupure électrique de ce 
jeudi 28 matin afin de réaliser des travaux sur les installations. Je 
vous conseille vivement d'éteindre proprement vos serveurs en 
hébergement afin de ne pas subir de dégâts.

Je tiens à vous remercie pour votre attachement à ce projet et suis à 
votre disposition pour de plus amples informations.

Amicalement,
ngonzalez


Plus d'informations sur la liste de diffusion iot