[technique] INCIDENT: perte de deux machines physiques du cluster g2 et stri 20151026 / cluster down

Lun 26 Oct 22:53:48 CET 2015

Bonsoir,

Le cluster est toujours en recovery mais ca n'impacte plus trop les VM
visiblement.

Il reste 3 VM adherents down (ilico, phoeneeks, uind) que je ne peux pas
redemarrer a cause d'un etat openstack incoherent ("cannot xxx while it
is in task_state powering-off"), il faudra que Mehdi jette un oeil
depuis Tokyo :).

Sincèrement,

Laurent

On Mon, 2015-10-26 at 12:48 +0100, Laurent GUERBY wrote:
> Bonjour,
> 
> Le cluster est toujours en recovery :
> 
>             102 requests are blocked > 32 sec
>             recovery 2954723/65811225 objects degraded (4.490%)
>             recovery 2587563/65811225 objects misplaced (3.932%)
>             recovery 13/10406629 unfound (0.000%)
> 
> pg 87.16 is active+recovery_wait+undersized+degraded+remapped, acting
> [30,8,16,25,18,2147483647,1,14,39,9], 7 unfound
> pg 87.7b is active+recovery_wait+undersized+degraded+remapped, acting
> [17,30,15,2147483647,25,1,9,35,39,16], 6 unfound
> 
> 
> Les "unfound" sont sur un pool utilisé par une seule VM, a priori
> il n'y aura pas de perte de donnée malgré la perte de 3 disques (2 dans
> le pool SSD qui est en redondance triple, et 1 dans le pool HDD qui est
> soit triple soit 4+1 en cours de migration vers 4+2) mais la recovery
> risque de durer encore une journee.
> 
> Une fois la recovery finie nous ajouterons quelques disques
> SSD neufs et proposerons une migration des petits disques systeme
> (20G) sur le pool ceph SSD : les VMs qui sont sur le pool ceph SSD sont
> deja revenues en ligne.
> 
> Sincèrement,
> 
> Laurent
> 
> On Mon, 2015-10-26 at 08:31 +0100, Laurent GUERBY wrote:
> > Bonjour,
> > 
> > A 23h04 dimanche 20151025 la machine physique "stri" du cluster a planté
> > et ce lundi 20151026 a 5h17 la machine "g2" du cluster a aussi planté.
> > 
> > Avec IPMI j'ai redemarré stri et la machine est revenue, avec vPro
> > sur g2 j'ai fait un fsck manuel sur sda2 puis la machine est
> > revenue.
> > 
> > Pendant le redemarrage g1 a 7h56 a aussi disparu, la aussi
> > redemarrage au vPro.
> > 
> > Apres ces redemarrages il y a actuellement 3 OSD avec un soucis :
> > 
> > osd.0 hdd sur g1 refuse de demarrer sur un ASSERT :
> > http://tracker.ceph.com/issues/13594
> > 
> > osd.12 SSD n'existe plus (?) sur stri
> > root at stri:/var/log/ceph# /etc/init.d/ceph start osd.12
> > /etc/init.d/ceph: osd.12 not found (/etc/ceph/ceph.conf defines osd.14
> > osd.13 osd.15 , /var/lib/ceph defines osd.14 osd.13 osd.15)
> > 
> > osd.4 SSD sur g2 pareil :
> > root at g2:/var/log/ceph# /etc/init.d/ceph start osd.4
> > /etc/init.d/ceph: osd.4 not found (/etc/ceph/ceph.conf defines mon.g2
> > osd.1 osd.21 osd.7 , /var/lib/ceph defines mon.g2 osd.1 osd.21 osd.7)
> > 
> > Probablement un probleme puppet, j'attend le retour de Mehdi.
> > 
> > En l'etat actuel les VM sont quasiment toutes down.
> > 
> > Sincèrement,
> > 
> > Laurent
>