[technique] Incident sur le cluster ganeti : perte de h1
Laurent GUERBY
laurent at guerby.net
Lun 10 Sep 10:39:52 CEST 2012
On Mon, 2012-09-10 at 08:29 +0200, Laurent GUERBY wrote:
> Bonjour,
>
> A 7h04 ce matin la machine h1 a disparu du reseau, un quart
> des VM est actuellement offline.
>
> Je vais passer a Myrys pour voir en console.
Pas d'information en console : pas de synchro VGA. Un premier
redemarrage n'a pas fonctionné, apres debranchement et rebranchement de
tous les cables le deuxieme redemarrage a été le bon.
En attendant le retour de h1 Mehdi a mis h4 en master, sur h4 :
gnt-cluster masterfailover
Et basculé les VM qui etaient en primaire sur h1 sur
leur secondaire, sur h4 :
gnt-node failover --ignore-consistency h1
Ceci a redemarré toute les VM qui etaient en arret suite a la panne de
h1 : elles sont revenues d'apres nagios entre 9h14 et 9h30 soit une
durée de panne de 1h30 environ sur un quart des VM.
Une fois h1 redémarré a 9h38 drbd a resynchronisé tout seul tous les
disques ce qui a restauré la redondance disque. Sur h4 pour s'assurer de
la consistance du cluster apres le retour de h1 :
gnt-cluster redist-conf
Enfin retour manuel sur primaire h1 des VM sans interruption avec
"migrate", par exemple depuis h4 pour la VM d'infrastructure openvpn :
gnt-instance migrate openvpn
Les migrations sont en cours.
La documentation :
http://chiliproject.tetaneutral.net/projects/tetaneutral/wiki/Cluster_Ganeti
Cette panne a encore une fois montré la facilité de reprise avec ganeti.
Merci a Mehdi pour son aide,
Sincèrement,
Laurent
Plus d'informations sur la liste de diffusion technique