[technique] Incident sur le cluster ganeti : perte de h1

Laurent GUERBY laurent at guerby.net
Lun 10 Sep 10:39:52 CEST 2012


On Mon, 2012-09-10 at 08:29 +0200, Laurent GUERBY wrote:
> Bonjour,
> 
> A 7h04 ce matin la machine h1 a disparu du reseau, un quart
> des VM est actuellement offline.
> 
> Je vais passer a Myrys pour voir en console.

Pas d'information en console : pas de synchro VGA. Un premier
redemarrage n'a pas fonctionné, apres debranchement et rebranchement de
tous les cables le deuxieme redemarrage a été le bon.

En attendant le retour de h1 Mehdi a mis h4 en master, sur h4 :

gnt-cluster masterfailover

Et basculé les VM qui etaient en primaire sur h1 sur
leur secondaire, sur h4 :

gnt-node failover --ignore-consistency h1

Ceci a redemarré toute les VM qui etaient en arret suite a la panne de
h1 : elles sont revenues d'apres nagios entre 9h14 et 9h30 soit une
durée de panne de 1h30 environ sur un quart des VM.

Une fois h1 redémarré a 9h38 drbd a resynchronisé tout seul tous les
disques ce qui a restauré la redondance disque. Sur h4 pour s'assurer de
la consistance du cluster apres le retour de h1 :

gnt-cluster redist-conf

Enfin retour manuel sur primaire h1 des VM sans interruption avec
"migrate", par exemple depuis h4 pour la VM d'infrastructure openvpn :

gnt-instance migrate openvpn

Les migrations sont en cours.

La documentation :

http://chiliproject.tetaneutral.net/projects/tetaneutral/wiki/Cluster_Ganeti

Cette panne a encore une fois montré la facilité de reprise avec ganeti.

Merci a Mehdi pour son aide,

Sincèrement,

Laurent





Plus d'informations sur la liste de diffusion technique