[technique] Incident sur h5 25 septembre

Mar 25 Sep 17:12:48 CEST 2012

Bonjour,

Un disque du cluster de vm (sur h5 exactement) a montré 
des erreurs ce matin, la même anomalie que nous avons rencontré
dernièrement sur h4 et h6.

[11928297.323862] end_request: I/O error, dev sdb, sector 443285951
[11928297.323930] sd 3:0:0:0: [sdb] Unhandled error code
[11928297.323932] sd 3:0:0:0: [sdb] Result: hostbyte=DID_BAD_TARGET
driverbyte=DRIVER_OK
[11928297.323934] sd 3:0:0:0: [sdb] CDB: Read(10): 28 00 01 e0 01 bf 00
00 08 00

J'ai donc effectué la même manipulation que les fois précédentes. 
En laissant le même disque cette fois ci en tant donné que les autres 
n'étaient finalement pas défectueux après une série de tests.

Cela a été transparent pour les machines virtuelle.

Tout est maintenant revenu dans l'ordre. Les machines virtuelles qui
avait perdu leur disques secondaires sont de nouveau redondée.

Les commandes effectuées ont été:

# Suppression du disque
echo 1 > /sys/block/sdb/device/delete

# nettoyage de devmapper
/dev/kvmvg# for i in *; do echo === $(date) == $i ; dmsetup remove /dev/kvmvg/"$i"; echo $?; done

# J'ai unplug, puis replug le disk (d'ailleur j'ai l'impression qu'il
# etait mal clippé)

# rescan du controller sata
echo "- - -" > /sys/class/scsi_host/host3/scan

# le disque est redetecté en sdb # :-)

# Ganeti a fait le reste automatiquement.

Cordialement,
-- 
Mehdi Abaakouk
mail: sileht at sileht.net
irc: sileht