[technique] Incident : cache tiering non fonctionnel sur ceph 0.80.7 et impact sur toute la prod VM openstack 20141117
Laurent GUERBY
laurent at guerby.net
Jeu 20 Nov 09:25:10 CET 2014
Bonjour,
Le 20141117 il y a quelques jours nous avons tenté d'utiliser
l'erasure coding sur ceph (RAID generalisé, ici 3+1 et 4+1)
ce qui lors qu'on veut des block device necessite la mise en place du
cache tiering :
http://ceph.com/docs/master/rados/operations/cache-tiering/
https://en.wikipedia.org/wiki/Erasure_code
Nous sommes tombés sur un bug connu de ceph vieux de 3 mois et identifié
par Mehdi :
http://tracker.ceph.com/issues/9285
Ce bug rend en pratique tout le cluster inutilisable des le cache
tiering en place. Le temps de tout remettre en etat nous avons freezé et
du rebooter quelques VMs, les autres VM etant fortement impactées sur la
performance disque ("task blocked for more than 120 seconds" & cie).
Discussion sur ceph-users@ :
https://www.mail-archive.com/ceph-users@lists.ceph.com/msg14774.html
En esperant que les developpeurs ceph fixent ce bug rapidement,
pour le moment pour le stockage a gros volume nous sommes
revenus a du RAID1 reseau (raw = 2x utile).
Sincèrement,
Laurent
Plus d'informations sur la liste de diffusion technique