[technique] INCIDENT: perte de g4 / perte de deux machines physiques du cluster g2 et stri 20151026 / cluster down

Mar 27 Oct 23:45:50 CET 2015

Bonsoir,

Dans la suite des aventures au pays de Murphy la machine g4 a planté
plusieurs fois dans la journée, comme c'est probablement un probleme
materiel je l'ai remplacée par une machine donnée par l'association ISF
http://www.isf.cc/ a tetaneutral.net la semaine derniere. En transvasant
les disques cela a l'air de fonctionner depuis un peu plus d'une heure.

J'ai envoyé une requete sur la liste des utilisateurs ceph
et notre probleme d'OSD qui ne demarre pas semble
etre corrigé en 0.94.4 (on est en 0.94.2) :

http://tracker.ceph.com/issues/13060
http://lists.ceph.com/pipermail/ceph-users-ceph.com/2015-October/005727.html

On ne peut pas utiliser directement 0.94.4 a cause d'un bug ceph/KVM
deja identifié sur ceph-users :

https://www.mail-archive.com/ceph-users@lists.ceph.com/msg24339.html
http://tracker.ceph.com/issues/13559

Et d'un autre bug qu'on a reporté il y a un moment et dont le fix a eté
commité seulement apres 0.94.4 :

http://tracker.ceph.com/issues/10399

0.94 est une release LTS de ceph, reste a voir si on package une
0.94.4 + fix qui nous interessent (probable).

Sincèrement,

Laurent

On Mon, 2015-10-26 at 22:53 +0100, Laurent GUERBY wrote:
> Bonsoir,
> 
> Le cluster est toujours en recovery mais ca n'impacte plus trop les VM
> visiblement.
> 
> Il reste 3 VM adherents down (ilico, phoeneeks, uind) que je ne peux pas
> redemarrer a cause d'un etat openstack incoherent ("cannot xxx while it
> is in task_state powering-off"), il faudra que Mehdi jette un oeil
> depuis Tokyo :).
> 
> Sincèrement,
> 
> Laurent
> 
> On Mon, 2015-10-26 at 12:48 +0100, Laurent GUERBY wrote:
> > Bonjour,
> > 
> > Le cluster est toujours en recovery :
> > 
> >             102 requests are blocked > 32 sec
> >             recovery 2954723/65811225 objects degraded (4.490%)
> >             recovery 2587563/65811225 objects misplaced (3.932%)
> >             recovery 13/10406629 unfound (0.000%)
> > 
> > pg 87.16 is active+recovery_wait+undersized+degraded+remapped, acting
> > [30,8,16,25,18,2147483647,1,14,39,9], 7 unfound
> > pg 87.7b is active+recovery_wait+undersized+degraded+remapped, acting
> > [17,30,15,2147483647,25,1,9,35,39,16], 6 unfound
> > 
> > 
> > Les "unfound" sont sur un pool utilisé par une seule VM, a priori
> > il n'y aura pas de perte de donnée malgré la perte de 3 disques (2 dans
> > le pool SSD qui est en redondance triple, et 1 dans le pool HDD qui est
> > soit triple soit 4+1 en cours de migration vers 4+2) mais la recovery
> > risque de durer encore une journee.
> > 
> > Une fois la recovery finie nous ajouterons quelques disques
> > SSD neufs et proposerons une migration des petits disques systeme
> > (20G) sur le pool ceph SSD : les VMs qui sont sur le pool ceph SSD sont
> > deja revenues en ligne.
> > 
> > Sincèrement,
> > 
> > Laurent
> > 
> > On Mon, 2015-10-26 at 08:31 +0100, Laurent GUERBY wrote:
> > > Bonjour,
> > > 
> > > A 23h04 dimanche 20151025 la machine physique "stri" du cluster a planté
> > > et ce lundi 20151026 a 5h17 la machine "g2" du cluster a aussi planté.
> > > 
> > > Avec IPMI j'ai redemarré stri et la machine est revenue, avec vPro
> > > sur g2 j'ai fait un fsck manuel sur sda2 puis la machine est
> > > revenue.
> > > 
> > > Pendant le redemarrage g1 a 7h56 a aussi disparu, la aussi
> > > redemarrage au vPro.
> > > 
> > > Apres ces redemarrages il y a actuellement 3 OSD avec un soucis :
> > > 
> > > osd.0 hdd sur g1 refuse de demarrer sur un ASSERT :
> > > http://tracker.ceph.com/issues/13594
> > > 
> > > osd.12 SSD n'existe plus (?) sur stri
> > > root at stri:/var/log/ceph# /etc/init.d/ceph start osd.12
> > > /etc/init.d/ceph: osd.12 not found (/etc/ceph/ceph.conf defines osd.14
> > > osd.13 osd.15 , /var/lib/ceph defines osd.14 osd.13 osd.15)
> > > 
> > > osd.4 SSD sur g2 pareil :
> > > root at g2:/var/log/ceph# /etc/init.d/ceph start osd.4
> > > /etc/init.d/ceph: osd.4 not found (/etc/ceph/ceph.conf defines mon.g2
> > > osd.1 osd.21 osd.7 , /var/lib/ceph defines mon.g2 osd.1 osd.21 osd.7)
> > > 
> > > Probablement un probleme puppet, j'attend le retour de Mehdi.
> > > 
> > > En l'etat actuel les VM sont quasiment toutes down.
> > > 
> > > Sincèrement,
> > > 
> > > Laurent
> > 
>