[technique] INCIDENT: perte de g4 / perte de deux machines physiques du cluster g2 et stri 20151026 / cluster down

Mer 28 Oct 17:01:49 CET 2015

Bravo pour le boulot!

>
> je l'ai remplacée par une machine donnée par l'association ISF
>
Ca explique le bruit dans le couloir devant la salle de TLS00 :-)
Ca m'a inquiété, je suis allé vérifier que tout allait bien tout à l'heure...
et tout a l'air d'aller bien ;-)

++
Ughy.

> Le 27 oct. 2015 à 23:45, Laurent GUERBY <laurent at guerby.net> a écrit :
> 
> Bonsoir,
> 
> Dans la suite des aventures au pays de Murphy la machine g4 a planté
> plusieurs fois dans la journée, comme c'est probablement un probleme
> materiel je l'ai remplacée par une machine donnée par l'association ISF
> http://www.isf.cc/ a tetaneutral.net la semaine derniere. En transvasant
> les disques cela a l'air de fonctionner depuis un peu plus d'une heure.
> 
> J'ai envoyé une requete sur la liste des utilisateurs ceph
> et notre probleme d'OSD qui ne demarre pas semble
> etre corrigé en 0.94.4 (on est en 0.94.2) :
> 
> http://tracker.ceph.com/issues/13060
> http://lists.ceph.com/pipermail/ceph-users-ceph.com/2015-October/005727.html
> 
> On ne peut pas utiliser directement 0.94.4 a cause d'un bug ceph/KVM
> deja identifié sur ceph-users :
> 
> https://www.mail-archive.com/ceph-users@lists.ceph.com/msg24339.html
> http://tracker.ceph.com/issues/13559
> 
> Et d'un autre bug qu'on a reporté il y a un moment et dont le fix a eté
> commité seulement apres 0.94.4 :
> 
> http://tracker.ceph.com/issues/10399
> 
> 0.94 est une release LTS de ceph, reste a voir si on package une
> 0.94.4 + fix qui nous interessent (probable).
> 
> Sincèrement,
> 
> Laurent
> 
> On Mon, 2015-10-26 at 22:53 +0100, Laurent GUERBY wrote:
>> Bonsoir,
>> 
>> Le cluster est toujours en recovery mais ca n'impacte plus trop les VM
>> visiblement.
>> 
>> Il reste 3 VM adherents down (ilico, phoeneeks, uind) que je ne peux pas
>> redemarrer a cause d'un etat openstack incoherent ("cannot xxx while it
>> is in task_state powering-off"), il faudra que Mehdi jette un oeil
>> depuis Tokyo :).
>> 
>> Sincèrement,
>> 
>> Laurent
>> 
>> On Mon, 2015-10-26 at 12:48 +0100, Laurent GUERBY wrote:
>>> Bonjour,
>>> 
>>> Le cluster est toujours en recovery :
>>> 
>>>            102 requests are blocked > 32 sec
>>>            recovery 2954723/65811225 objects degraded (4.490%)
>>>            recovery 2587563/65811225 objects misplaced (3.932%)
>>>            recovery 13/10406629 unfound (0.000%)
>>> 
>>> pg 87.16 is active+recovery_wait+undersized+degraded+remapped, acting
>>> [30,8,16,25,18,2147483647,1,14,39,9], 7 unfound
>>> pg 87.7b is active+recovery_wait+undersized+degraded+remapped, acting
>>> [17,30,15,2147483647,25,1,9,35,39,16], 6 unfound
>>> 
>>> 
>>> Les "unfound" sont sur un pool utilisé par une seule VM, a priori
>>> il n'y aura pas de perte de donnée malgré la perte de 3 disques (2 dans
>>> le pool SSD qui est en redondance triple, et 1 dans le pool HDD qui est
>>> soit triple soit 4+1 en cours de migration vers 4+2) mais la recovery
>>> risque de durer encore une journee.
>>> 
>>> Une fois la recovery finie nous ajouterons quelques disques
>>> SSD neufs et proposerons une migration des petits disques systeme
>>> (20G) sur le pool ceph SSD : les VMs qui sont sur le pool ceph SSD sont
>>> deja revenues en ligne.
>>> 
>>> Sincèrement,
>>> 
>>> Laurent
>>> 
>>> On Mon, 2015-10-26 at 08:31 +0100, Laurent GUERBY wrote:
>>>> Bonjour,
>>>> 
>>>> A 23h04 dimanche 20151025 la machine physique "stri" du cluster a planté
>>>> et ce lundi 20151026 a 5h17 la machine "g2" du cluster a aussi planté.
>>>> 
>>>> Avec IPMI j'ai redemarré stri et la machine est revenue, avec vPro
>>>> sur g2 j'ai fait un fsck manuel sur sda2 puis la machine est
>>>> revenue.
>>>> 
>>>> Pendant le redemarrage g1 a 7h56 a aussi disparu, la aussi
>>>> redemarrage au vPro.
>>>> 
>>>> Apres ces redemarrages il y a actuellement 3 OSD avec un soucis :
>>>> 
>>>> osd.0 hdd sur g1 refuse de demarrer sur un ASSERT :
>>>> http://tracker.ceph.com/issues/13594
>>>> 
>>>> osd.12 SSD n'existe plus (?) sur stri
>>>> root at stri:/var/log/ceph# /etc/init.d/ceph start osd.12
>>>> /etc/init.d/ceph: osd.12 not found (/etc/ceph/ceph.conf defines osd.14
>>>> osd.13 osd.15 , /var/lib/ceph defines osd.14 osd.13 osd.15)
>>>> 
>>>> osd.4 SSD sur g2 pareil :
>>>> root at g2:/var/log/ceph# /etc/init.d/ceph start osd.4
>>>> /etc/init.d/ceph: osd.4 not found (/etc/ceph/ceph.conf defines mon.g2
>>>> osd.1 osd.21 osd.7 , /var/lib/ceph defines mon.g2 osd.1 osd.21 osd.7)
>>>> 
>>>> Probablement un probleme puppet, j'attend le retour de Mehdi.
>>>> 
>>>> En l'etat actuel les VM sont quasiment toutes down.
>>>> 
>>>> Sincèrement,
>>>> 
>>>> Laurent
>>> 
>> 
> 
> 
> _______________________________________________
> technique mailing list
> technique at lists.tetaneutral.net
> http://lists.tetaneutral.net/listinfo/technique

-------------- section suivante --------------
Une pièce jointe autre que texte a été nettoyée...
Nom: signature.asc
Type: application/pgp-signature
Taille: 496 octets
Desc: Message signed with OpenPGP using GPGMail
URL: <http://lists.tetaneutral.net/pipermail/technique/attachments/20151028/155f6462/attachment.sig>