[technique] Incident : performance du cluster ceph jusqu'a dimanche 20141214 soir / mise a jour firefly => giant head

Laurent GUERBY laurent at guerby.net
Lun 15 Déc 11:29:27 CET 2014


Bonjour,

Comme nous n'arrivions pas a retablir une performance acceptable sur le
cluster ceph et que notre analyse des logs ceph nous faisaient plus
penser a des bugs qu'a des problemes materiels (attente d'une heure pour
une requete sur un SSD qui testé individuellement donne 300 MB/s read et
70 MB/s write ...) nous avons pris la decision de changer de version
de ceph dimanche apres midi avec Mehdi, passer de 0.80.7 "Firefly"
a 0.87 "Giant" dont les releases notes mentionnent des ameliorations
utiles :

http://ceph.com/docs/master/release-notes/

Nous avons d'abord pris les paquets debian experimental :

http://anonscm.debian.org/cgit/pkg-ceph/ceph.git/tree/debian/patches/0latest-giant.patch?h=experimental
~  ccfd2414c68afda55bf4cefa2441ea6d53d87cc6

Mais cela a freezé les op clients c'est a dire petit a petit toutes les
VM. Apres investigations quelques bug fix proches ont été fait
dans la branche giant apres la premiere release :

https://github.com/ceph/ceph/commit/7bbf80ff7388f104cf318dd5ac61ca7d35274694
http://tracker.ceph.com/projects/ceph/repository/revisions/c9f9e72e558521cb90f90538bc27f995f82d76c2

Mehdi a donc pris la branche git giant et reconstruit les paquets :

https://github.com/ceph/ceph/tree/giant 
commit du rebuild de sileht 6ec14b07940ff64d6a121e21a730f691a1a71546

Apres cette derniere mise a jour le cluster cepĥ s'est mis a fonctionner
normalement en prenant en compte la priorité qu'on souhaite entre
les recover/backfill et les op clients et sans aucun message de "slow
request > 30 secondes".

Nous avons du rebooter quelques VM coincées, désolé pour
tous ces problemes et merci pour la patience de nos adhérent-e-s.

La stabilisation a été plutot longue car apres nos tests initiaux qui
marchaient le passage en prod a l'echelle n'a au final jamais été
satisfaisant jusque la, ce qui montre que tester ce genre
d'infrastructure distribuée n'est malheureusement pas facilement
realisable.

Nous allons encore rajouter quelques disques aujourd'hui et verifier
des reglages BIOS sur la machine n7 mais cela devrait etre transparent.

Sincèrement,

Laurent




Plus d'informations sur la liste de diffusion technique