[technique] INCIDENT: perte de deux machines physiques du cluster g2 et stri 20151026 / cluster down
Laurent GUERBY
laurent at guerby.net
Lun 26 Oct 22:53:48 CET 2015
Bonsoir,
Le cluster est toujours en recovery mais ca n'impacte plus trop les VM
visiblement.
Il reste 3 VM adherents down (ilico, phoeneeks, uind) que je ne peux pas
redemarrer a cause d'un etat openstack incoherent ("cannot xxx while it
is in task_state powering-off"), il faudra que Mehdi jette un oeil
depuis Tokyo :).
Sincèrement,
Laurent
On Mon, 2015-10-26 at 12:48 +0100, Laurent GUERBY wrote:
> Bonjour,
>
> Le cluster est toujours en recovery :
>
> 102 requests are blocked > 32 sec
> recovery 2954723/65811225 objects degraded (4.490%)
> recovery 2587563/65811225 objects misplaced (3.932%)
> recovery 13/10406629 unfound (0.000%)
>
> pg 87.16 is active+recovery_wait+undersized+degraded+remapped, acting
> [30,8,16,25,18,2147483647,1,14,39,9], 7 unfound
> pg 87.7b is active+recovery_wait+undersized+degraded+remapped, acting
> [17,30,15,2147483647,25,1,9,35,39,16], 6 unfound
>
>
> Les "unfound" sont sur un pool utilisé par une seule VM, a priori
> il n'y aura pas de perte de donnée malgré la perte de 3 disques (2 dans
> le pool SSD qui est en redondance triple, et 1 dans le pool HDD qui est
> soit triple soit 4+1 en cours de migration vers 4+2) mais la recovery
> risque de durer encore une journee.
>
> Une fois la recovery finie nous ajouterons quelques disques
> SSD neufs et proposerons une migration des petits disques systeme
> (20G) sur le pool ceph SSD : les VMs qui sont sur le pool ceph SSD sont
> deja revenues en ligne.
>
> Sincèrement,
>
> Laurent
>
> On Mon, 2015-10-26 at 08:31 +0100, Laurent GUERBY wrote:
> > Bonjour,
> >
> > A 23h04 dimanche 20151025 la machine physique "stri" du cluster a planté
> > et ce lundi 20151026 a 5h17 la machine "g2" du cluster a aussi planté.
> >
> > Avec IPMI j'ai redemarré stri et la machine est revenue, avec vPro
> > sur g2 j'ai fait un fsck manuel sur sda2 puis la machine est
> > revenue.
> >
> > Pendant le redemarrage g1 a 7h56 a aussi disparu, la aussi
> > redemarrage au vPro.
> >
> > Apres ces redemarrages il y a actuellement 3 OSD avec un soucis :
> >
> > osd.0 hdd sur g1 refuse de demarrer sur un ASSERT :
> > http://tracker.ceph.com/issues/13594
> >
> > osd.12 SSD n'existe plus (?) sur stri
> > root at stri:/var/log/ceph# /etc/init.d/ceph start osd.12
> > /etc/init.d/ceph: osd.12 not found (/etc/ceph/ceph.conf defines osd.14
> > osd.13 osd.15 , /var/lib/ceph defines osd.14 osd.13 osd.15)
> >
> > osd.4 SSD sur g2 pareil :
> > root at g2:/var/log/ceph# /etc/init.d/ceph start osd.4
> > /etc/init.d/ceph: osd.4 not found (/etc/ceph/ceph.conf defines mon.g2
> > osd.1 osd.21 osd.7 , /var/lib/ceph defines mon.g2 osd.1 osd.21 osd.7)
> >
> > Probablement un probleme puppet, j'attend le retour de Mehdi.
> >
> > En l'etat actuel les VM sont quasiment toutes down.
> >
> > Sincèrement,
> >
> > Laurent
>
Plus d'informations sur la liste de diffusion technique