[technique] INCIDENT: perte de deux machines physiques du cluster g2 et stri 20151026 / cluster down

Laurent GUERBY laurent at guerby.net
Lun 26 Oct 12:48:11 CET 2015


Bonjour,

Le cluster est toujours en recovery :

            102 requests are blocked > 32 sec
            recovery 2954723/65811225 objects degraded (4.490%)
            recovery 2587563/65811225 objects misplaced (3.932%)
            recovery 13/10406629 unfound (0.000%)

pg 87.16 is active+recovery_wait+undersized+degraded+remapped, acting
[30,8,16,25,18,2147483647,1,14,39,9], 7 unfound
pg 87.7b is active+recovery_wait+undersized+degraded+remapped, acting
[17,30,15,2147483647,25,1,9,35,39,16], 6 unfound


Les "unfound" sont sur un pool utilisé par une seule VM, a priori
il n'y aura pas de perte de donnée malgré la perte de 3 disques (2 dans
le pool SSD qui est en redondance triple, et 1 dans le pool HDD qui est
soit triple soit 4+1 en cours de migration vers 4+2) mais la recovery
risque de durer encore une journee.

Une fois la recovery finie nous ajouterons quelques disques
SSD neufs et proposerons une migration des petits disques systeme
(20G) sur le pool ceph SSD : les VMs qui sont sur le pool ceph SSD sont
deja revenues en ligne.

Sincèrement,

Laurent

On Mon, 2015-10-26 at 08:31 +0100, Laurent GUERBY wrote:
> Bonjour,
> 
> A 23h04 dimanche 20151025 la machine physique "stri" du cluster a planté
> et ce lundi 20151026 a 5h17 la machine "g2" du cluster a aussi planté.
> 
> Avec IPMI j'ai redemarré stri et la machine est revenue, avec vPro
> sur g2 j'ai fait un fsck manuel sur sda2 puis la machine est
> revenue.
> 
> Pendant le redemarrage g1 a 7h56 a aussi disparu, la aussi
> redemarrage au vPro.
> 
> Apres ces redemarrages il y a actuellement 3 OSD avec un soucis :
> 
> osd.0 hdd sur g1 refuse de demarrer sur un ASSERT :
> http://tracker.ceph.com/issues/13594
> 
> osd.12 SSD n'existe plus (?) sur stri
> root at stri:/var/log/ceph# /etc/init.d/ceph start osd.12
> /etc/init.d/ceph: osd.12 not found (/etc/ceph/ceph.conf defines osd.14
> osd.13 osd.15 , /var/lib/ceph defines osd.14 osd.13 osd.15)
> 
> osd.4 SSD sur g2 pareil :
> root at g2:/var/log/ceph# /etc/init.d/ceph start osd.4
> /etc/init.d/ceph: osd.4 not found (/etc/ceph/ceph.conf defines mon.g2
> osd.1 osd.21 osd.7 , /var/lib/ceph defines mon.g2 osd.1 osd.21 osd.7)
> 
> Probablement un probleme puppet, j'attend le retour de Mehdi.
> 
> En l'etat actuel les VM sont quasiment toutes down.
> 
> Sincèrement,
> 
> Laurent





Plus d'informations sur la liste de diffusion technique