[technique] INCIDENT: perte de deux machines physiques du cluster g2 et stri 20151026 / cluster down

Laurent GUERBY laurent at guerby.net
Lun 26 Oct 08:31:40 CET 2015


Bonjour,

A 23h04 dimanche 20151025 la machine physique "stri" du cluster a planté
et ce lundi 20151026 a 5h17 la machine "g2" du cluster a aussi planté.

Avec IPMI j'ai redemarré stri et la machine est revenue, avec vPro
sur g2 j'ai fait un fsck manuel sur sda2 puis la machine est
revenue.

Pendant le redemarrage g1 a 7h56 a aussi disparu, la aussi
redemarrage au vPro.

Apres ces redemarrages il y a actuellement 3 OSD avec un soucis :

osd.0 hdd sur g1 refuse de demarrer sur un ASSERT :
http://tracker.ceph.com/issues/13594

osd.12 SSD n'existe plus (?) sur stri
root at stri:/var/log/ceph# /etc/init.d/ceph start osd.12
/etc/init.d/ceph: osd.12 not found (/etc/ceph/ceph.conf defines osd.14
osd.13 osd.15 , /var/lib/ceph defines osd.14 osd.13 osd.15)

osd.4 SSD sur g2 pareil :
root at g2:/var/log/ceph# /etc/init.d/ceph start osd.4
/etc/init.d/ceph: osd.4 not found (/etc/ceph/ceph.conf defines mon.g2
osd.1 osd.21 osd.7 , /var/lib/ceph defines mon.g2 osd.1 osd.21 osd.7)

Probablement un probleme puppet, j'attend le retour de Mehdi.

En l'etat actuel les VM sont quasiment toutes down.

Sincèrement,

Laurent




Plus d'informations sur la liste de diffusion technique