[technique] INCIDENT: disque tres lent sur le cluster ceph 20150922-20150927 osd.18 g4

Dim 27 Sep 10:52:13 CEST 2015

Bonjour,

Vers le mardi 22 septembre les performances du cluster ceph se sont
dégrapdées sur le pool rotationnel. Apres recherches malgré un SMART
correct le disque 4 TB osd.18 sur g4 a été identifié comme source du
probleme.

Il a été remplacé par un nouveau disque le vendredi 25 septembre. Un
selfcheck SMART long sur l'ancien disque a fini par montrer une erreur
smart donc le disque etait bien HS, un selftest short lui finit avec
succes.

Durant le recovery le nouvel OSD ceph est monté tres haut en RAM, bien
plus que les 1-1.5GB RAM/TB habituels, Mehdi a donc evacué toutes les VM
de la machine.

A la fin du recovery ce matin nous avons relancé l'osd.18 et profité de
l'occasion pour passer le disque root de quelques VM d'infrastructure
sur le pool SSD (ns2, dns1, ring01 et apt).

Si tout va bien nous ajouterons la semaine prochaine deux machines 32G
de RAM et ~ 10TB disque chacune au cluster pour porter le total a 11
machines, et sans doute avec une mise a jour en 0.94.3 de ceph
maintenant que debian a des package ceph a jour. Nous allons aussi
eviter de mettre plus de 10 TB de disque dans les machines 32G de RAM.

Merci aux adherent-e-s pour leur patience,

Sincèrement,

Laurent