[technique] Incident disque sur h4 / service VM

Laurent GUERBY laurent at guerby.net
Sam 7 Juil 15:35:51 CEST 2012


Bonjour,

Le cluster ganeti est maintenant revenu a son état nominal.

Il reste a :
- retirer le disque cassé de h4 (seagate ST2000DL003-9VT1)
- rediger la documentation sur chiliproject (log IRC).

Merci a Mehdi qui a fait la plus grande partie
du travail de restauration.

Sincèrement,

Laurent

root at h1:~# gnt-node list
Node               DTotal  DFree MTotal MNode MFree Pinst Sinst
h1.tetaneutral.net   1.8T 650.6G  15.6G  9.8G  6.8G    26    17
h4.tetaneutral.net   1.8T 670.5G  15.6G  9.3G  6.4G    20    24
h5.tetaneutral.net   1.8T 989.8G  15.6G 10.2G  5.2G    18    20
h6.tetaneutral.net   1.8T 870.6G  15.6G  9.3G  6.2G    20    22

root at h1:~# gnt-cluster verify
Sat Jul  7 15:27:36 2012 * Verifying global settings
Sat Jul  7 15:27:36 2012 * Gathering data (4 nodes)
Sat Jul  7 15:27:41 2012 * Gathering disk information (4 nodes)
Sat Jul  7 15:27:51 2012 * Verifying node status
Sat Jul  7 15:27:51 2012 * Verifying instance status
Sat Jul  7 15:27:51 2012 * Verifying orphan volumes
Sat Jul  7 15:27:51 2012 * Verifying orphan instances
Sat Jul  7 15:27:51 2012 * Verifying N+1 Memory redundancy
Sat Jul  7 15:27:51 2012 * Other Notes
Sat Jul  7 15:27:51 2012   - NOTICE: 1 non-redundant instance(s) found.
Sat Jul  7 15:27:51 2012 * Hooks Results
root at h1:~# echo $?
0

root at h1:~# /root/get-free-mem-info.py  
(...)
if h1 failed, estimated free memory is (Est., Real):
- h6: 4096 Mo, 4159 Mo
- h4: 3072 Mo, 3125 Mo
- h5: 1536 Mo, 1598 Mo

if h4 failed, estimated free memory is (Est., Real):
- h1: 1792 Mo, 1772 Mo
- h6: 4608 Mo, 4671 Mo
- h5: 2304 Mo, 2366 Mo

if h5 failed, estimated free memory is (Est., Real):
- h1: 2304 Mo, 2284 Mo
- h6: 3840 Mo, 3903 Mo
- h4: 2560 Mo, 2613 Mo

if h6 failed, estimated free memory is (Est., Real):
- h1: 1280 Mo, 1260 Mo
- h4: 4864 Mo, 4917 Mo
- h5: 2816 Mo, 2878 Mo

if no fail occur, estimated free memory is (Est., Real):
- h1: 5888 Mo, 5868 Mo
- h6: 6656 Mo, 6719 Mo
- h4: 7424 Mo, 7477 Mo
- h5: 4608 Mo, 4670 Mo

On Fri, 2012-07-06 at 01:48 +0200, Laurent GUERBY wrote:
> Bonsoir,
> 
> Il y avait un disque de spare sur h4 et nous avons pu recuperer la
> situation sans rebooter de VM. Le processus de reconstruction de la
> redondance disque est lancé et tourne a 15-20 Mbyte/s, environ 40 VM
> sont concernées soit en primaire soit en secondaire.
> 
> Il nous reste a documenter precisement comment faire dans
> ce cas d'echec.
> 
> Merci a Mehdi et a Pedro Macedo (developpeur ganeti chez google)
> pour leur aide.
> 
> Sincèrement,
> 
> Laurent
> 
> On Thu, 2012-07-05 at 23:02 +0200, Laurent GUERBY wrote:
> > Bonjour,
> > 
> > Un des deux disques de 2TB de la machine h4 a laché en fin
> > d'apres midi :
> > 
> > Jul  5 18:48:30 h4 kernel: [7349604.544515] ata7: hard resetting link
> > ...
> > Jul  5 18:49:30 h4 kernel: [7349664.473836] ata7.00: disabled
> > Jul  5 18:49:30 h4 kernel: [7349664.473841] ata7.00: device reported invalid CHS sector 0
> > Jul  5 18:49:30 h4 kernel: [7349664.473851] ata7: EH complete
> > Jul  5 18:49:30 h4 kernel: [7349664.473908] sd 6:0:0:0: [sdc] Unhandled error code
> > ...
> > 
> > La temperature du disque au moment de l'echec selon hddtemp :
> > 
> > Thu Jul 5 18:47:01 CEST 2012 == /dev/sdc: ST2000DL003-9VT166: 31°C
> > 
> > La plus haute temperature atteinte par ce disque a été 41 C.
> > 
> > Les VM qui ont leur primaire ou secondaire sur h4 sont toujours en
> > fonctionnement grace a DRBD, leur redondance disque n'est par contre
> > plus assurée.
> > 
> > On regarde si on peut migrer les VM de h4 sans les rebooter,
> > si on y arrive pas il y aura un reboot des VM de h4.
> > 
> > Sincèrement,
> > 
> > Laurent





Plus d'informations sur la liste de diffusion technique