[technique] Incident : freeze de certaines VM et du cluster ceph ce dimanche 20141228 7h-17h
burban at fdn.fr
burban at fdn.fr
Lun 29 Déc 20:22:09 CET 2014
Laurent GUERBY <laurent at guerby.net> writes:
> Bonsoir,
>
> Ce matin sur g2 une des machines du cluster ceph+openstack avec 32GB de
> RAM le OOM killer du kernel s'est activé :
>
> Dec 28 03:04:50 g2 kernel: [1332869.080266] qemu-system-x86 invoked oom-killer: gfp_mask=0x3000d0, order=1, oom_score_adj=0
> Dec 28 03:04:50 g2 kernel: [1332869.147266] qemu-system-x86 invoked oom-killer: gfp_mask=0x3000d0, order=1, oom_score_adj=0
> Dec 28 07:14:23 g2 kernel: [1347828.381869] ceph-osd invoked oom-killer: gfp_mask=0x2040d0, order=2, oom_score_adj=0
>
> Ce qui a entrainé l'arret de deux OSD supplementaires. Malgré
> le redemarrage des trois OSD qui etaient down les VM bloquées
> ne sont pas reparties et ceph affichait un grand nombre de "slow
> request" avec plusieurs heures d'attentes. A defaut d'autre solution
> grace aux details fournis par la commande "ceph health detail"
> j'ai relancé tous les OSD avec des "slow request" et le
> cluster est reparti sans aucun "slow request" qui etaient
> donc probablement dues a des bugs de ceph. Il faudra
> peut-etre prevoir un redemarrage regulier des OSD.
>
> La cause du OOM sur g2 etait un manque de
> memoire libre (free+cache+buffer) :
[...]
Oui, j'avais noté ça: je faisais de la maintenance connecté sur ma vm,
et j'avais noté des process cron bloqués. Impossible de les tuer (même
avec kill -9). Pas d'infos anormales dans les logs. Tentative de reboot
en échec avec shutdown -r now, il a fallu faire shutdown -r -n
now... puis attendre 17h!
Une autre chose bizarre est l'apparition dans les logs de messages
"icmpv6_send: no reply to icmp error" très fréquents, à peu près depuis
le passage à ceph, mais aussi à peu près depuis l'upgrade de ma vm de
squeeze à wheezy (et je précise sans aucune modif de ma config
IPv6). Donc difficile de conclure sur le coupable, mais ça évoque
peut-être des choses chez quelqu'un?
Et pour finir dans le chapitre petits problèmes de la migration à
wheezy, j'ai reçu le message suivant en tentant de me connecter sur
https://chiliproject.tetaneutral.net/ (avec donc l'iceweasel 31.3.0 de
Debian Wheezy):
"The server rejected the handshake because the client downgraded to a
lower TLS version than the server supports."
Ca ne me faisait pas ça avant.
La solution a été trouvée là:
http://kb.mozillazine.org/Security.tls.version
et a consisté à modifier via about:config la valeur de
security.tls.version.max, en la passant de 3 à 2.
Cordialement.
--
Bernard
Plus d'informations sur la liste de diffusion technique