[technique] Incident Ceph 20160912 ~ 8h30

Mehdi Abaakouk sileht at sileht.net
Mar 12 Sep 10:01:10 CEST 2017


Bonjour,

Ce matin 3 OSDs de Ceph ce sont bloqué pendant plusieurs minutes,
quelques VMs ont pu voir leur IO bloqués.

Le premier (g8 osd.0) sans raison apparente dans les logs.
Les 2 autres (osd.35 et osd.18) recevaient des data avec un mauvais crc
du premier.

De plus, nous avons de plus en plus de donnée détectées corrompues par Ceph
c'est dernier temps. (mais grace au replica 3, cela ne pose pas de soucis
particulier)

Laurent a fait des investigations sur les données corrompu [1]. La
source des problèmes sembles venir de quelque chose sur G8.

Ce matin, suite au blocage j'ai redémarrer les 3 osds bloqué, Ceph est
revenu sur un état stable et a actuellement 449 objects (sur 14867658)
corrompus (1 seul des 3 replicas à chaque fois, donc aucune perte de
donné pour les utilisateurs)

J'en est profité pour faire des memtests sur la mémoire libre de la
machine g8 [2]. Celui-ci a détecté un problème toujours au même endroit
avec toujours le deuxième bit erroné (comme dans les investigations de
Laurent).

J'ai donc enlever les VMs qui tournaient sur cette machine. Reboot la
machine pour utiliser memtest86+ et récupérer l'adresse exact corrompu.
J'ai ajouté le badram=... au kernel pour éviter cette adresse le temps que
l'on change la barrette de RAM qui pose problème.

La machine est de nouveau fonctionnelle.

Seul l'osd.4 n'est pas reparti suite au reboot, mais d'après les logs c'est
vraisemblablement un bug Ceph, rien de grave.

[1] https://lists.tetaneutral.net/pipermail/technique/2017-August/002859.html
[2] https://pad.tetaneutral.net/p/incident-ceph-20170912

A+

-- 
Mehdi Abaakouk
mail: sileht at sileht.net
irc: sileht
-------------- section suivante --------------
Une pièce jointe autre que texte a été nettoyée...
Nom: signature.asc
Type: application/pgp-signature
Taille: 898 octets
Desc: non disponible
URL: <http://lists.tetaneutral.net/pipermail/technique/attachments/20170912/f1bfa20f/attachment.sig>


Plus d'informations sur la liste de diffusion technique