[Tetaneutral] Incident sur un noeud du cluster ganeti (h6)

Laurent GUERBY laurent at guerby.net
Sun Nov 11 22:11:25 CET 2012


On Sun, 2012-11-11 at 18:50 +0100, Mehdi Abaakouk wrote:
> Bonjour,
> 
> Un incident sur le cluster ganeti a eu lieu le 11 nov. à 18h09, un
> kernel panic sur la machine h6 

Bonsoir,

A Myrys en console h6 affichait des backtrace en boucle toutes
les 30 secondes a peu pres :

http://pano.tetaneutral.net/data/tsf2/incident/20121111_001.jpg
http://pano.tetaneutral.net/data/tsf2/incident/20121111_002.jpg

Brancher un clavier (merci a Pierre-Guy d'en avoir trouvé un dans
Myrys :) est resté sans effet sur la console, j'ai donc rebooté
electriquement la machine qui est revenue en ligne sans erreur et avec
ses deux disques.

Apres investigation je me suis aperçu que h6 (et h5) avait la frequence
du CPU bloquée au maximum, la raison est que le package cpufrequtils
n'etait pas installé (ce qui etait le cas sur h1 et h4). Cette absence
explique probablement les messages sur la temperature CPU qu'on
observait dans les logs.

apt-get install cpufrequtils

Et la frequence est revenue au minimum sur les core idle.

Mehdi a ensuite rebasculé la production sur h6.

gnt-node modify -O no h2
(et une autre commande pour remettre les VM sans rerepartir ?)

Dans les evolutions potentielles : 

- acheter des cartes meres Intel supportant vpro pour permettre le
reboot et VNC console a distance (le processeur i7 2600 supporte vpro),
budget ~ 550 euros pour 4 carte meres, sachant qu'on peut proposer
des PC d'hebergement avec les cartes meres recuperees.
- mettre a jour debian / kernel / ganeti

Suite sur technique@ au besoin :

http://lists.tetaneutral.net/listinfo/technique

Sincèrement,

Laurent




More information about the Tetaneutral mailing list