[technique] Incident disque sur h4 / service VM

Laurent GUERBY laurent at guerby.net
Ven 6 Juil 01:48:21 CEST 2012


Bonsoir,

Il y avait un disque de spare sur h4 et nous avons pu recuperer la
situation sans rebooter de VM. Le processus de reconstruction de la
redondance disque est lancé et tourne a 15-20 Mbyte/s, environ 40 VM
sont concernées soit en primaire soit en secondaire.

Il nous reste a documenter precisement comment faire dans
ce cas d'echec.

Merci a Mehdi et a Pedro Macedo (developpeur ganeti chez google)
pour leur aide.

Sincèrement,

Laurent

On Thu, 2012-07-05 at 23:02 +0200, Laurent GUERBY wrote:
> Bonjour,
> 
> Un des deux disques de 2TB de la machine h4 a laché en fin
> d'apres midi :
> 
> Jul  5 18:48:30 h4 kernel: [7349604.544515] ata7: hard resetting link
> ...
> Jul  5 18:49:30 h4 kernel: [7349664.473836] ata7.00: disabled
> Jul  5 18:49:30 h4 kernel: [7349664.473841] ata7.00: device reported invalid CHS sector 0
> Jul  5 18:49:30 h4 kernel: [7349664.473851] ata7: EH complete
> Jul  5 18:49:30 h4 kernel: [7349664.473908] sd 6:0:0:0: [sdc] Unhandled error code
> ...
> 
> La temperature du disque au moment de l'echec selon hddtemp :
> 
> Thu Jul 5 18:47:01 CEST 2012 == /dev/sdc: ST2000DL003-9VT166: 31°C
> 
> La plus haute temperature atteinte par ce disque a été 41 C.
> 
> Les VM qui ont leur primaire ou secondaire sur h4 sont toujours en
> fonctionnement grace a DRBD, leur redondance disque n'est par contre
> plus assurée.
> 
> On regarde si on peut migrer les VM de h4 sans les rebooter,
> si on y arrive pas il y aura un reboot des VM de h4.
> 
> Sincèrement,
> 
> Laurent
> 
> 
> _______________________________________________
> technique mailing list
> technique at lists.tetaneutral.net
> http://lists.tetaneutral.net/listinfo/technique





Plus d'informations sur la liste de diffusion technique