[technique] Incidents cluster de VM / remplacement machine R310

Laurent GUERBY laurent at guerby.net
Jeu 19 Mar 23:51:36 CET 2015


Bonsoir,

Le Dell R310 "n7" / "pioneer" qui fait partie du cluster openstack+ceph
nous a causé quelques problemes apres plusieurs années de production
sans soucis il a planté 3 fois depuis debut mars :

- 3 mars 2015 15h21
- 10 mars 2015 07h12
- 19 mars 2015 12h06

Deux des trois fois IPMI ou le kernel nous ont signalé un probleme
sur la RAM ECC.

Apres le deuxieme plantage du 10 mars nous avions décidé de commander
une machine de remplacement qui est arrivé ce matin :

https://chiliproject.tetaneutral.net/projects/tetaneutral/wiki/Inventaire#Commande-ldlccom-20150314
https://chiliproject.tetaneutral.net/projects/tetaneutral/wiki/Inventaire#Commande-cybertekfr-20150319

Et nous avions prévu un déménagement des disques de n7 dans la nouvelle
machine a 14h donc malheureusement apres le troisieme plantage de 12h06.

Mehdi a fait le remplacement (plus un aller/retour a Cybertek pour
corriger mon mix de socket 1150/1155) et le R310 est maintenant remplacé
par un PC core i5 4570 32G RAM neuf dans le cluster Openstack/Ceph.

Un deuxieme PC identique sera ajouté au cluster la semaine prochaine
(huitieme machine a 32G RAM), et il faudra sans doute des bénévoles pour
voir ce qu'on peut faire du R310 (memtest & cie).

Sincèrement,

Laurent





Plus d'informations sur la liste de diffusion technique