[technique] Incident cluster ceph 20170310

Mehdi Abaakouk sileht at sileht.net
Ven 10 Mar 09:52:05 CET 2017


Bonjour,

Avant hier, nous avons activé tous les nouveaux disques dans ceph sans
aucun soucis, le déplacement des données pour mieux les répartir tourne
depuis 2 jours.

Mais hier 23h, l'osd1 a commencé a logger des erreurs 'bad crc in data'
en boucle jusqu'à remplir tout le disque système... ~10G en 2h. Cette OSD
semblait bloqué dans une boucle, et pourtant il continuait à accepter des
IOs et a dire qu'il était UP, alors qu'il était incapable d'écrire les
IOs entrant sur le disque.

Le disque root entant plein, un des 3 monitors c'est sucuidé, mais cela
n'a pas d'impact sur ceph et est plutôt rassurent.

Nous avons noté que vers 00h30, le kernel a fait 3 reset sata sur ce disque.

Je me suis aperçu du problème à 3h du matin et effectué les opérations
suivantes:

* copie du fichier log de osd.1 sur une autre machine
* suppression du log sur g2
* stop de l'osd1
* start du mon.g2

Ce matin nous avons testé le disque de l'osd1, il n'a aucun problème
apparent. Nous l'avons donc redémarrer l'osd1, il tourne depuis 2 heures
sans aucun soucis.

Nous allons suivre l'évolution de l'osd1 de pres pour savoir si nous
sommes (encore) tombé sur un bug logiciel, ou si c'est vraiment un
problème matériel.


L'impact pour les machines virtuelles qui ont un disque sur le pool de
disque durs a été de gros ralentissement, voir des blocages des
écritures disques entre 23h et 3h du matin.

Il se peut qu'il y est encore quelle ralentissement dans la journée le
temps de le recovery finisse.

A+
-- 
Mehdi Abaakouk
mail: sileht at sileht.net
irc: sileht
-------------- section suivante --------------
Une pièce jointe autre que texte a été nettoyée...
Nom: signature.asc
Type: application/pgp-signature
Taille: 884 octets
Desc: non disponible
URL: <http://lists.tetaneutral.net/pipermail/technique/attachments/20170310/47ba6633/attachment.sig>


Plus d'informations sur la liste de diffusion technique