[technique] Incident : cache tiering non fonctionnel sur ceph 0.80.7 et impact sur toute la prod VM openstack 20141117

Laurent GUERBY laurent at guerby.net
Jeu 20 Nov 09:25:10 CET 2014


Bonjour,

Le 20141117 il y a quelques jours nous avons tenté d'utiliser
l'erasure coding sur ceph (RAID generalisé, ici 3+1 et 4+1)
ce qui lors qu'on veut des block device necessite la mise en place du
cache tiering :

http://ceph.com/docs/master/rados/operations/cache-tiering/
https://en.wikipedia.org/wiki/Erasure_code

Nous sommes tombés sur un bug connu de ceph vieux de 3 mois et identifié
par Mehdi :

http://tracker.ceph.com/issues/9285

Ce bug rend en pratique tout le cluster inutilisable des le cache
tiering en place. Le temps de tout remettre en etat nous avons freezé et
du rebooter quelques VMs, les autres VM etant fortement impactées sur la
performance disque ("task blocked for more than 120 seconds" & cie).

Discussion sur ceph-users@ :
https://www.mail-archive.com/ceph-users@lists.ceph.com/msg14774.html

En esperant que les developpeurs ceph fixent ce bug rapidement,
pour le moment pour le stockage a gros volume nous sommes
revenus a du RAID1 reseau (raw = 2x utile). 

Sincèrement,

Laurent




Plus d'informations sur la liste de diffusion technique